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序言 


江苏 传 智 播客 教育 科技 股份 有 限 公 司 ( 简 称 传 智 播客 ) 是 一 家 致力 于 培养 高 素质 软件 开 
发 人 才 的 科技 公司 ,“ 黑 马 程序 员 " 是 传 智 播客 旗下 高 端 IT 教育 品牌 。 

“黑马 程序 员 ” 的 学 员 多 为 大 学 毕业 后 , 想 从 事 IT 行业 ,但 各 方面 条 件 还 不 成 熟 的 年 轻 
人 .。“ 黑 马 程序 员 ” 的 学 员 筛 选 制度 非常 严格 ,包括 了 严格 的 技术 测试 .自学 能 力 测 试 , 还 包 
括 性 格 测试 .压力 测试 .品德 测试 等 。 百 里 挑 一 的 残酷 筛选 制度 确保 学 员 质 量 , 并 降低 企业 
的 用 人 风险 。 

自 * 黑 马 程序 员 ?成 立 以 来 ,教学 研发 团队 一 直 致力 于 打造 精品 课程 资源 ,不 断 在 产 、 
学 、 研 三 个 层面 创新 自己 的 执教 理念 与 教学 方针 ,并 集中 * 黑 马 程序 员 ” 的 优势 力量 ,有 针 
对 性 地 出 版 了 计算 机 系列 教材 80 多 种 ,制作 教学 视频 数 十 套 , 发 表 各 类 技术 文章 数 
百 篇 。 

“黑马 程序 员 " 不 仅 斥资 研发 IT 系列 教材 ,还 为 高 校 师 生 提 供 以 下 配套 学 习 资源 与 
服务 。 


为 大 学 生 提供 的 配套 服务 


1. 请 登录 “高校 学 习 平台 ”http://yx. ityxb. com, 免 费 获 取 海 量 学 习 资源 ,帮助 高 校 学 
生 解 决 学 习 问 题 。 

2. 针对 高 校 学 生 在 学 习 过 程 中 存在 的 压力 等 问题 ,我 们 还 面向 大 学 生 量 身 打 造 了 “IT 
技术 女神 ”一 一 “ 播 妞 学 姐 ”, 可 提供 教材 配套 源码 和 习题 答案 ,以 及 更 多 IT 学 习 资 源 , 同 学 
们 快 来 关注 “ 播 妞 学 姐 ” 的 微 信 公 众 号 :boniu1024。 


“ 播 妞 学 姐 ” 微 信 公 众 号 


为 教师 提供 的 配套 服务 
针对 高 校 教学 “黑马 程序 员 ? 为 IT 系列 教材 精心 设计 了 “教案 十 授课 资源 十 考试 系统 十 
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题库 十 教学 辅助 案例 的 系列 教学 资源 ,高校 老师 请 登录 “高 校 教 辅 平台 ”http ://yx. ityxb. 
com 或 关注 码 大 牛 老师 微 信 /QQ: 2011168841, 获取 教 材 配套 资源 ,也 可 以 扫描 下 方 二 维 
码 , 加 入 专 为 IT 教师 打造 的 师资 服务 平台 一 一 “教学 好 助手 ”, 获 取 最 新 教师 教学 辅助 资源 
的 相关 动态 。 


为 什么 要 学 习 本 书 
Apache Spark 是 用 于 大 规模 数据 处 理 的 统一 分 析 引 擎 ,具有 高 效 性 、 易 用 性 、 通 用 性 、 


兼容 性 四 大 特性 ,并 且 在 Spark 生态 体系 中 ,包含 了 离线 数据 、 流 式 数据 .图 计算 、 机 器 学 习 、 
NoSQL 查询 等 多 个 方面 的 解决 方案 , 深 受 广大 大 数据 工程 师 及 算法 工程 师 的 喜爱 。 对 于 想 
从 事 大 数据 行业 的 开发 人 员 来 说 ,学 好 Spark 尤为 重要 。 


Spark 技术 功能 强大 ,涉及 知识 面 较 广 , 零 基础 的 同学 很 难 踏 入 Spark 体系 架构 之 中 ， 


因此 本 书 采用 理论 和 案例 相 结合 的 编写 方式 ,用 通俗 易 懂 的 语言 讲解 复杂 、 难 以 理解 的 原 
理 , 每 章 都 包含 多 个 案例 ,让 读者 学 以 致 用 。 


关于 本 书 
作为 大 数据 技术 Spark 的 入 门 教程 ,最 重要 且 最 难 的 一 件 事情 就 是 将 一 些 复杂 、 难 以 理 


解 的 思想 和 问题 简单 化 ,让 初学 者 能 够 轻松 理解 并 快速 掌握 。 本 教材 对 每 个 知识 点 都 进行 
了 深入 分 析 ,并 针对 每 个 知识 点 精心 设计 了 相关 案例 ,然后 模拟 这 些 知 识 点 在 实际 工作 中 的 
运用 ,真正 做 到 了 知识 的 由 浅 入 深 、 由 易 到 难 。 


本 书 共 分 为 9 章 , 接 下 来 分 别 对 每 个 章节 进行 简单 的 介绍 ,具体 如 下 。 

第 1 章 主要 讲解 什么 是 Scala 以 及 Scala 编程 相关 知识 。 通 过 本 章 学 习 , 读 者 应 掌握 

Scala 环境 的 安装 配置 ,熟悉 Scala 语法 规范 ,并 实现 使 用 Scala 语言 编写 自己 的 第 一 

个 程序 。 

第 2 章 主 要 介绍 什么 是 Spark, 以 及 搭建 Spark 集群 的 方式 ,并 通过 Spark Shell 学 

习 Spark 的 基本 操作 方法 。 通 过 本 章 学 习 , 读 者 应 能 独立 搭建 Spark 集群 ,同时 对 

Spark 系统 的 基础 操作 和 基本 原理 有 初步 了 解 。 

第 3 章 主 要 介绍 什么 是 Spark RDD、RDD 的 处 理 过 程 以 及 操作 RDD 的 方式 。 通 过 

本 章 的 学 习 , 读 者 可 以 了 解 RDD 处 理 数据 核心 思想 ,并 且 能 够 使 用 RDD 编程 解决 

实际 问题 。 

第 4 章 主要 介绍 Spark SQL 的 数据 模型 DataFrame 和 Dataset, 它 是 一 个 由 多 个 列 

组 成 的 结构 化 的 分 布 式 数据 集合 ,类 似 于 关系 数据 库 中 的 表 概 念 。 通 过 本 章 的 学 

习 , 读 者 应 能 够 掌握 利用 Spark SQL 操作 MySQL 和 Hive 两 种 常见 数据 源 。 

。 第 5 章 主 要 介绍 HBase 分 布 式 数据 库 的 数据 模型 以 及 操作 方式 。 通 过 本 章 学 习 , 读 
者 能 够 掌握 部 署 HBase 集群 的 方法 ,了 解 HBase 存储 数据 的 架构 原理 ,并 且 能 够 使 
用 HBase 分 布 式 数据 库 解决 实际 业务 问题 。 
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。 第 6 章 主要 介绍 Kafka 流 处 理 平台 ,Kafka 是 流 式 计算 系统 中 常见 的 辅助 工具 , 通 
过 Kafka 工作 原理 的 学 习 , 读 者 能 够 了 解 Kafka 集群 整体 架构 中 各 个 组 件 的 功能 ， 
以 及 Kafka 写 人 数据 和 消费 数据 的 底层 原理 及 操作 方式 。 通 过 本 章 学 习 , 读 者 能 够 
掌握 部 署 Kafka 集群 的 方法 ,并 能 够 通过 执行 命令 和 API 方 式 操作 Kafka。 

第 7 章 主 要 介绍 Spark Streaming 的 相关 知识 ,Spark Streaming 是 Spark 生态 系统 
中 实现 流 式 计算 功能 的 重要 组 件 。 通 过 本 章 Spark Streaming 案例 式 讲 解 ,读者 能 
够 掌握 Spark Streaming 程序 的 开发 步骤 ,及 与 Kafka 整合 使 用 的 方法 。 

第 8 章 主要 介绍 Spark MLlib, 它 是 Spark 提供 的 机 器 学 习 库 ,其 中 整合 了 统计 、 分 
类 回归、 过 滤 等 主流 的 机 器 学 习 算法 和 丰富 的 API, 降 低 用 户 使 用 机 器 学 习 的 难 
度 。 通 过 本 章 学 习 , 读 者 能 够 了 解 利用 Spark 完成 机 器 学 习 的 方式 , 即 获取 数据 集 ， 
调用 训练 模型 算法 得 出 模型 ,通过 模型 分 析 当 前 数据 。 

第 9 章 主要 介绍 利用 Spark 构建 实时 交易 数据 统计 案例 的 开发 流程 。 通 过 本 章 学 
习 , 读 者 能 够 了 解 实时 计算 项 目的 基本 架构 模型 ,以 及 本 项 目 统计 商品 成 交 额 的 需 
求实 现 方式 。 


致谢 
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第 工 章 
Scala 语 言 基 础 


学 习 目标 

。 了 解 Scala 的 特点 。 

。 掌握 Scala 和 IDEA 的 下 载 安装 。 
。 掌握 Scala 的 基础 语法 。 

。 掌握 Scala 的 数据 结构 。 

。 熟悉 Scala 面向 对 象 的 特性 。 

。 掌握 Scala 的 模式 匹配 与 样 例 类 。 


Spark 是 专 为 大 规模 数据 处 理 而 设计 的 快速 通用 的 计算 引擎 , 它 是 用 Scala 语言 开发 实 
现 的 。 大 数据 技术 本 身 就 是 数据 计算 的 技术 ,而 Scala 既 有 面向 对 象 组 织 项 目 工程 的 能 力 ， 
又 具备 计算 数据 的 功能 ,同时 与 Spark 紧密 集成 ,本 书 将 采用 Scala 语言 开发 Spark 程序 ,所 
以 学 好 Scala 将 有 助 于 读者 更 好 地 掌握 Spark 框架 。 接 下 来 ,本章 将 讲解 Scala 语言 的 基础 
知识 。 


1.1 初 识 Scala 


1.1.1 Scala 概述 


Scala 于 2001 年 由 瑞士 洛桑 联邦 理工 学 院 (EPFL) 编程 方法 实验 室 研发 , 它 由 Martin 
Odersky( 马 丁 。 奥 德 斯 基 ) 创 建 。 目 前 ,许多 公司 依靠 Java 进行 的 关键 性 业务 应 用 已 转向 
或 正在 转向 Scala, 以 提高 应 用 程序 的 可 扩展 性 和 整体 的 可 靠 性 ,从 而 提高 开发 效率 。 

Scala 是 Scalable Language 的 简称 , 它 是 一 门 多 范式 的 编程 语言 ,其 设计 初 更 是 实现 一 
种 可 扩展 的 语言 ,并 集成 面向 对 象 编程 和 函数 式 编程 的 各 种 特性 。 基 于 这 个 目标 与 设计 ， 
Scala 具有 以 下 显著 的 特性 。 

(1) Scala 是 面向 对 象 的 语言 。 

Scala 是 一 种 纯粹 的 面向 对 象 语言 ,每 一 个 值 都 是 对 象 。 对 象 的 数据 类 型 以 及 行为 由 类 
和 特征 来 描述 ,类 抽象 机 制 的 扩展 通过 两 种 途径 实现 : 一 种 是 子 类 继承 , 另 一 种 是 混 人 机 
制 ,这 两 种 途径 都 能 够 避免 多 重 继承 的 问题 。 

(2) Scala 是 函数 式 编程 的 语言 。 

Scala 也 是 一 种 函数 式 语言 .其 函数 可 以 作为 值 来 使 用 。Scala 提供 了 轻 量 级 的 语法 用 
于 定义 匿名 函数 ,支持 高 阶 函数 ,允许 嵌 套 多 层 函 数 , 并 支持 柯 里 化 。 
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(3) Scala 是 静态 类 型 的 。 

Scala 具备 类 型 系统 ,通过 编译 时 的 类 型 检查 来 保证 代码 的 安全 性 和 一 致 性 。 类 型 系统 
支持 的 特性 包括 泛 型 类 ,注释 、 类 型 上 下 限 约束 、 类 别 和 抽象 类 型 作为 对 象 成 员 、 复 合 类 型 
引用 自己 时 显示 指定 类 型 .视图 、 多 态 方法 等 。 

(4) Scala 是 可 扩展 的 。 

在 实际 开发 中 , 某 个 特定 领域 的 应 用 程序 开发 往往 需要 特定 领域 的 语言 扩展 。Scala 提 
供 了 许多 独特 的 语言 机 制 , 它 能 够 很 容易 地 以 库 的 方式 无 缝 添加 新 的 语言 结构 。 

(5) Scala 是 可 以 交互 操作 的 。 

Scala 可 以 与 流行 的 Java Runtime Environment(JRE) 进 行 良 好 的 交互 操作 。Scala 用 
scalac 编译 器 把 源 文件 编译 成 Java 的 class 文件 ( 即 可 以 在 JVM 上 运行 的 字 节 码 )。 我 们 
可 以 从 Scala 中 调用 所 有 的 Java 类 库 ,同样 也 可 以 从 Java 应 用 程序 中 调用 Scala 代码 。 


1.1.2 Scala 的 下 载 安装 


Scala 语言 可 以 在 Windows、Linux、Mac OS 等 系统 上 编译 运行 。 由 于 Scala 是 运行 在 
JVM 平台 上 的 ,所 以 安装 Scala 之 前 必须 配置 好 JDK 环境 (JDK 版 本 要 求 不 低 于 1.5)。 本 
书 使 用 的 JDK 版 本 是 jdk1. 8, 关 于 JDK 的 安装 和 配置 这 里 不 作 详解 。 

在 不 同 操作 系统 上 安装 Scala 环境 的 相关 介绍 如 下 。 


1. 在 Windows 下 安装 Scala 


访问 Scala 官网 https://www. scala-lang. org/, 单 击 【[DOWNLOAD] 按 钮 进入 下 载 页 
面 , 在 该 页 面 可 以 下 载 最 新 版 本 的 Scala。 考 虑 到 Scala 的 稳定 性 以 及 和 Spark 的 兼容 性 ,这 
里 选择 下 载 Scala 2. 11. 8( 下 载 地 址 为 https://www. scala-lang. org/download/2. 11. 8. 
html) ,具体 如 图 1-1 所 示 。 


Archive System Size 
scala-2.11.8.tgz Mac OSX, Unix, Cygwin 27.35M 
scala-2.11.8msi Windows (msiinstaller) 109.35M 
Windows 27.40M 
scala-2.11.8.deb Debian 7602M 
scala-2.11.8.rpm RPM package 108.16M 
scala-docs-2.11.86.bxz APldocs 46.00M 
scala-docs-2.11.6zip APldocs 84.21M 
scala-sources-2.11.8.targz Sources 


1-1 下 载 Window 系统 支持 的 Scala 安装 包 


下 载 成 功 后 ,解压 Scala 的 安装 包 scala-2. 11. 8. zip ,并 配置 Windows 系统 的 环境 变量 ， 
效果 如 图 1-2 和 图 1-3 所 示 。 

测试 Scala 环境 是 否 安装 成 功 。 进 入 Windows 的 命令 行 ,输入 scala 命令 , 按 Enter 键 ， 
效果 如 图 1-4 所 示 。 


变量 名 0 SCALA_HOME 变星 名 吕 PatH 


变量 值 ) E:\software\window\scale-2. 11. | 变星 值 V) KHADOOP_HOME%\bin: XSCALA_HONEX\bin: 


[= CC 颈 ] 


图 1-2 Scala 系统 变量 的 配置 1-3 ”将 Scala 系统 变量 引入 到 环境 中 


国 管理 员 : CMWindows\system32\cmd.exe - scala ey | 


6.1.7681] 
rosoft Corporation 


11.8 “Java HotSpotCIN) 64-Bit Server UM] Java 1.8.8 151). 
s for evaluation. Or try :help- 


图 1-4 测试 Scala 环境 的 安装 
从 图 1-4 可 以 看 出 ,控制 台 输 出 了 Scala 的 版 本 号 2. 11. 8, 证 明 Scala 环境 已 经 安装 
成 功 。 
2. 在 Linux 下 安装 Scala 
通过 Scala 官网 下 载 Linux 系统 下 的 Scala-2. 11. 8 的 安装 包 scala-2. 11. 8. tgz( 下 载 地 


址 为 https://www. scala-lang. org/download/2. 11. 8. html) 。 将 安装 包 上 传 到 Linux 系统 
的 /export/software 目录 下 ,进行 解压 安装 ,解压 命令 如 下 


S$tar -zxvf scala-2.11.8.tgz -C /export/servers/ 


执行 vi /etc/profile 命令 ,进入 Linux 环境 变量 的 配置 文件 中 ,添加 Scala 环境 变量 , 具 
体内 容 如 下 : 


export SCALA HOME=/export/servers/scala-2.11.8 
export PATH=$ PATH:$ SCALA HOME/bin 


添加 完 上 述 的 内 容 后 ,执行 source /etc/profile 命令 ,使 配置 的 环境 变量 生效 ,Scala 在 
Linux 系统 下 的 环境 安装 完成 。 


3. 在 Mac 下 安装 Scala 


首先 ,通过 Scala 官网 下 载 支持 Mac OS 的 Scala 安装 包 scala-2. 11. 8. tgz, 下 载 地 址 为 
https://www. scala-lang. org/download/2. 11. 8. html, 具 体 如 图 1-5 所 示 。 

下 载 成 功 后 ,解压 安装 包 , 并 将 其 移动 到 主 目录 下 (如 果 找 不 到 主 目录 ,可 以 回 到 桌面 ， 
按 快捷 键 Shift-Commond-H 进入 计算 机 主 目录 )。 

然后 ,修改 环境 变量 。 将 bin 目录 添加 到 路 径 中 ,路 径 通常 存储 在 计算 机 主 目录 下 的 
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Archive System Size 

Mac OSX, Unix Cygwin 27.35M 
scala-2.11.8.msi Windows (msi installer) 109.35M 
scala-2.11.8zip Windows 2740M 
scala-2.11.8.deb Debian 7602M 
scala-2.11.8.rpm RPM package 108.16M 
scala-docs-2.11.8.bxz Apldocs 46.00M 
scala-docs-2.11.8zip Apldocs 84.21M 
scala-sources-2.11.8.targz Sources 


1-5 下 载 Mac 系统 支持 的 Scala 安装 包 


. profile 或 . bash_profile 的 文件 中 。 假 设 此 刻 要 编辑 . bash_profile 文件 ,可 以 使 用 下 列 命 
令 打开 文件 ,具体 如 下 : 


S$touch ~/.bash profile # 如 果 bash_profile 不 存在 ,可 以 使 用 此 命令 创建 
S$open ~/.bash profile # 打 开 bash_profile 文 件 


接着 ,打开 bash_profile 文件 后 ,将 下 列 内 容 添 加 到 所 有 PATH 语句 之 后 。 
export PATH=" 主 路 径 /Scala/bin:$PATH" 


最 后 ,保存 并 关闭 bash_profile 文件 ,重启 计算 机 ,并 输入 下 列 命令 查看 Scala 版 本 号 ， 
测试 Scala 的 安装 情况 ,具体 如 下 : 


$scala -version 
如 果 Scala 安装 成 功 ,计算 机 同样 会 输出 Scala 的 版 本 号 ,说 明 Scala 安装 成 功 。 


1.1.3 在 IDEA 开发 工具 中 下 载 安 装 Scala 插件 


目前 Scala 的 主流 开发 工具 主要 有 两 种 : Eclipse 工具 和 IDEA 工具 ,在 这 两 个 开发 工 
具 中 可 以 安装 对 应 的 Scala 插件 进行 Scala 开发 。 由 于 IDEA 工具 可 以 自动 识别 代码 错误 
并 进行 简单 的 修复 ,而 且 IDEA 工具 内 置 了 很 多 优秀 的 插件 ,所 以 现在 大 多 数 Scala 开发 程 
序 员 都 会 选择 IDEA 作为 开发 Scala 的 工具 。 接 下 来 ,本 书 将 以 Windows 操作 系统 为 例 , 分 
步骤 讲解 如 何在 IDEA 工具 上 下 载 安装 Scala 插件 ,具体 步骤 如 下 。 

(1) 访问 http://www. jetbrains. com/idea/download/previous. html 下 载 IDEA 工具 ， 
本 书 选择 的 版 本 是 2018. 2. 5(IDEA 只 是 编程 工具 ,读者 可 以 任意 选择 ); 然 后 ,打开 IDEA 
安装 包 , 单 击 【Next】 按 钮 进行 安装 ,直到 安装 结束 。 最 终 显示 的 效果 如 图 1-6 所 示 。 

(2) 下 载 Scala 插件 (地 址 为 https://plugins. jetbrains. com/ plugin/1347-scala) ,本 书 
选择 的 版 本 是 2018. 2. 4(scala-intellij-bin-2018. 2. 4. zip)。 在 IDEA 工具 上 安装 Scala 插件 , 单 
击 主 界面 右 下 角 的 【ConfigureJ] 下 拉 按 钮 ,然后 选择 [Plugins] 命 令 ,效果 如 图 1-7 所 示 。 
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IntelliJ IDEA 


Version 2018.2.5 


+ Create New Project 
L¥ Import Project 
号 open 


片 Check out from Version Control ~ 


四 Events ， 次 Configure - 


图 1-6 打开 IDEA 工具 的 主 界面 


Android Support 


Supports development ofAndrold applications 
GE Ant Support with Intelli IDEA and Android Studio_ 


(号 Bytecode Viewer 

全 Copyright 

全 Coverage 

(CVS Integration 

| Eclipse Integration 

Check or uncheck 3 plugin to enable or disable it 


[nstal JetBrains plugin~. | | Browse repositories- | | Install plugin from disk- | 


图 1-7 Plugins 库 


在 图 1-7 中 ,Plugins 库 中 有 很 多 的 插件 可 以 联网 直接 安装 ,由 于 选择 的 是 离线 安装 方 
式 , 所 以 ,需要 单 击 【Install plugin from disk] 按 钮 ,选择 Scala 插件 所 在 的 路 径 , 效 果 如 图 1-8 
所 示 。 


从 图 1-9 中 可 以 看 出 ,Scala 插件 已 经 显示 在 Plugins 库 列表 中 ,说 明 Scala 插件 已 经 安 
装 完成 ,然后 单 击 [OK】 按 钮 ,效果 如 图 1-10 所 示 。 

从 图 1-10 可 以 看 出 ,安装 完 Scala 插件 ,需要 重启 IDEA 工具 ,Scala 插件 才 可 以 生效 。 
单 击 【Restart】 按 钮 ,重启 IDEA 工具 。 
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JAR and ZIP archives are accepted 


mn.x|S|le 
E:\softexe\windows\scala-intellj-bin-2018.2.4.zip 

目 Everything-1.4.1.895.x64zip 

目 fscapture8.9zip 

目 mysqlzip 

目 notepad++zip 

目 scala-2.11.8zip 

目 scala-intelij-bin-2017.2.2zip 


车 Restart Intelli) IDEA 
New version will be available after restart 


Adds support for the 四 language .The following features are available for free 
with IntellJIDEACommunity Edition: 


® Coding assistance (highlighting, completion, formatting, refactorings etc) 
® Navigation, search, information about ypes and implicits. 

® Integration with sbt and other build tools. 

® Testing frameworks support (OE Test, Specs2, uTest) 

。 ESE debugger, worksheets and Ammonite scripts. 


Check or uncheck a plugin to enable or disable it 


图 1-9 Seala 插件 安装 完成 


贺 Restart Inteli IDEA to activate changes in plugins? 


图 1-10 重启 IDEA 工具 界面 


1.1.4 开发 第 一 个 Scala 程序 


前 面 完 成 了 Scala 环境 和 IDEA 工具 的 安装 。 接 下 来 .就 以 打印 “Hello World” 为 例子 
来 演示 如 何 使 用 IDEA 工具 开发 Scala 程序 ,具体 步骤 如 下 。 

(1) 创建 工程 。 在 IDEA 工具 主 界面 中 单 击 【Create New Project】 按 钮 来 创建 工程 , 效 
果 如 图 1-11 所 示 。 

在 图 1-11 所 示 的 界面 中 选择 “Scala”, 然 后 选中 IDEA 开发 工具 , 单 击 【Next] 按 钮 ,效果 
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如 图 1-12 所 示 。 


(CE Inteli platform Plugin 


M Maven 
on Gradle 


@ Groow 
| | © Grifion 


区 Kotin 


Ws Empty Project 


图 1-11 创建 Scala 工程 


Project name: | spark_chapterOl 
Project location: | D:\ideaworkspace\spark_chapterO1 


”i 


scalaspk: [ER 选择 Scala [Seate- | 


图 1-12 配置 Scala 工程 


从 图 1-12 中 可 以 看 出 ,Scala 工程 已 经 配置 好 了 , 单 击 【Finish】 按 钮 ,完成 Scala 工程 的 
创建 ,效果 如 图 1-13 所 示 。 

从 图 1-13 中 可 以 看 出 ,工程 下 面 会 有 一 些 文 : 
件 夹 。. idea 文件 夹 , 主 要 用 来 存放 该 工程 的 配置 信 太守 
息 (如 版 本 控制 信息 和 历史 记录 等 );sre 文件 夹 , 主 |， 时 eeeepeouim 
要 是 存放 该 工程 的 代码 ; External Libraries 文件 
夹 ,是 用 来 存放 相关 的 依赖 项 。 

(2) 创建 包 。 选 中 src 文件 夹 , 右 击 并 选择 
【New]>【Package】>【OK】, 效 果 如 图 1-14 所 示 。 
从 图 1-14 中 可 以 看 出 , 包 已 经 创建 完成 。 

(3) 创建 Scala 类 。 选 中 包 名 . 右 击 并 选择 [New】>【Scala Class】 ,效果 如 图 1-15 所 示 。 


图 1-13 Secala 工程 创建 完成 
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spark_chapterOl 
> Midea 


Y Msrc 


HelloWorld| 


cnitcast.scala | 包 名 
议 spark_chapterOLiml 
> ll Edernal Ubraries 


图 1-14 创建 完 包 名 图 1-15 创建 Scala 类 


在 图 1-15 中 ,可 创建 的 Scala 类 有 三 种 类 型 ,分 别 是 Class、Object 以 及 Trait。 此 处 选 
择 创建 Object 类 型 , 单 击 [OK】 按 钮 ,Scala 类 创建 完成 ,效果 如 图 1-16 所 示 。 


spark 站 
Fle Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help 
Ws spark chapter01 ) Ma src ) Pa cn ) Pa itcast ) Pi scala ) @ HelloWorld.scala ) #3 国 ]> 业 涂 | 加 | 最 | 
国 Projet ”全 站 | 阁 - I”| 回 Helowordscala ~ 虽 
~ Ws spark chapterO1 DiVdeawlT Package cn.itcast.scala ve 
> Midea 2 号 
v 上 src 3 Dobject HelloWorld { 和 
v 国 cnitcastscala 4 m 
| 5 9) 对 
中 钢 spark_chapterOLiml | 
|> Mh Edernal Ubraries 如 
| 并 
= 
二 
避 
bal Helloworld 
国 Terminal 外 :TODO Q EventLog 


加 41 CRLF: UTF8:; 安国 鲜 


图 1-16 ”Scala 类 创建 完成 


(4) 在 HelloWorld. scala 文件 中 编写 代码 ,具体 代码 如 文件 1-1 所 示 。 
文件 1-1 HelloWorld. scala 


1 object Helloworld { 
2 def main (args: Array[string]) { 
:| println ("Hello, world!") 

4 | 

5 


上 述 代码 的 内 容 分 别 是 Scala 类 的 主 方法 ( 即 程序 人 口 ) 和 程序 输出 的 结果 。 
运行 文件 1-1 中 的 代码 ,控制 台 输出 结果 如 图 1-17 所 示 。 


全 D:\Soft\JDK\bin\java ... 
Hello, world! 


可 


时 


Process finished with exit code 0 


图 1-17 控制 台 输出 的 结果 
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值得 一 提 的 是 ,在 实际 开发 过 程 中 ,开发 者 需要 根据 需求 自行 编写 各 种 Scala 程序 , 然 
后 执行 此 程序 。 关 于 Scala 的 基础 语法 、 数 据 结构 、 面 向 对 象 的 特性 以 及 模式 匹配 和 样 例 
类 ,将 在 后 面 的 章节 中 进行 详细 讲解 。 


1.2 ”Scala 的 基础 语法 


每 种 编程 语言 都 有 一 套 自己 的 语法 规范 ,Scala 语言 也 不 例外 ,同样 需要 遵守 一 定 的 语 
法 规范 。 本 节 将 针对 Scala 的 基本 语法 进行 介绍 。 


1.2.1 声明 值 和 变量 


Scala 有 两 种 类 型 的 变量 ,一 种 是 使 用 关键 字 var 声明 的 变量 , 值 是 可 变 的 ; 另 一 种 是 使 
用 关键 字 val 声明 的 变量 ,也 叫 常 量 , 值 是 不 可 变 的 。 示 例 代码 如 下 : 


Var myVar:String="Hello" // 使 用 var 声明 变量 myVar 
val age:Int=10 // 使 用 val 声明 常量 age 


这 里 需要 说 明 的 是 ,虽然 声明 值 和 变量 的 方式 比较 简单 ,但 是 有 以 下 几 个 事项 需要 

(1) Scala 中 的 变量 在 声明 时 必须 进行 初始 化 。 不 同 的 是 ,使 用 var 声明 的 变量 可 以 在 
初始 化 后 再 次 对 变量 进行 赋值 ,而 使 用 val 声明 的 常量 的 值 不 可 被 再 次 赋值 。 

(2) 声明 变量 时 ,可 以 不 给 出 变量 的 类 型 ,因为 在 初始 化 的 时 候 ,Scala 的 类 型 推断 机 制 
能 够 根据 变量 初始 化 的 值 自动 推断 出 来 。 

上 述 声明 变量 myVar 和 age 的 代码 ,等同 于 下 列 代码 : 


var myVar="Hello" // 使 用 var 声明 变量 myVar 
val age=10 // 使 用 val 声明 常量 age 


(3) 使 用 关键 字 var 或 val 声明 变量 时 ,后 面 紧 跟 的 变量 名 称 不 能 和 Scala 中 的 保留 字 
重 名 ,而 且 变 量 名 可 以 以 字母 或 下 画 线 开 头 , 且 变量 名 是 严格 区 分 大 小 写 的 。 


1.2.2 数据 类 型 


任何 一 种 编程 语言 都 有 特定 的 数据 类 型 ,Scala 也 不 例外 。 与 其 他 语言 相 比 ,Scala 中 的 
所 有 值 都 属于 某 种 类 型 ,包括 数值 和 函数 。 接 下 来 ,通过 一 张 图 来 描述 Scala 数据 类 型 的 层 
次 结构 ,具体 如 图 1-18 所 示 。 

从 图 1-18 可 以 看 出 ,Any 是 所 有 类 型 的 超 类 型 ,也 称 为 顶级 类 型 , 它 包含 两 个 直接 子 
类 ,具体 如 下 。 

。 AnyVal: 表示 值 类 型 , 值 类 型 描述 的 数据 是 一 个 不 为 空 的 值 , 而 不 是 一 个 对 象 。 它 
预定 义 了 9 种 类 型 ,分 别 是 Double、Float、Long ,Int、Short、Byte、Unit、Char 和 
Boolean。 其 中 ,Unit 是 一 种 不 代表 任何 意义 的 值 类 型 , 它 的 作用 类 似 Java 中 的 
void。 


”AnyRef: 表示 引用 类 型 。 除 值 类 型 外 ,所 有 类 型 都 继承 自 AnyRef。 
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图 1-18 ”Scala 中 数据 类 型 的 层次 结构 


在 Scala 数据 类 型 层级 结构 的 底部 ,还 有 两 个 数据 类 型 ,分 别 是 Nothing 和 Null, 具 体 
介绍 如 下 。 
。 Nothing: 所 有 类 型 的 子 类 型 ,也 称 为 底部 类 型 。 它 常见 的 用 途 是 发 出 终止 信号 ,如 
抛 出 异常 .退出 程序 或 无 限 循 环 。 
。 Null: 所 有 引用 类 型 的 子 类 型 , 它 的 主要 用 途 是 与 其 他 JVM 语言 互 操作 ,几乎 不 在 
Scala 代码 中 使 用 。 


1.2.3 算术 和 操作 符 重 载 


Scala 中 算术 操作 符 ( 十 ,一 、x* 、/、%) 的 作用 和 Java 是 一 样 的 ,位 操作 符 (&、| 二 二 二 过) 
的 作用 也 是 一 样 的。 特别 要 强调 的 是 , Scala 的 这 些 操 作 符 其 实 是 方法 。 例 如 ,a 十 b 其 实 是 
a. 十 (b) 的 简写 , 接 下 来 ,通过 Scala 交互 式 Shell 编程 讲解 操作 符 的 使 用 ,具体 示例 代码 如 下 。 


scala>val a=1 
ayvint'=l 
scala>val b=2 
b: Int =2 
scala>a+b 
res5: Int =3 
scala>a.+ (b) 
res6: Int =3 


上 述 代码 中 ,a. 十 (b) 中 的 符号 十 表示 的 是 方法 名 。Scala 中 的 方法 命名 没有 Java 那么 
严格 ,几乎 可 以 使 用 任何 符号 为 Scala 方法 命名 。 

对 于 刚 开始 接触 Scala 的 程序 员 来 说 ,可 能 更 倾向 于 使 用 Java 语法 风格 。 不 过 与 Java 
中 的 操作 符 相 比 ,Scala 有 一 个 明显 的 不 同 之 处 , 那 就 是 Scala 没有 提供 操作 符 十 十 和 一 一 。 
如 果 想 实现 递增 或 者 递减 的 效果 ,可 以 使 用 “十 = 二 1” 或 者 "一 = 二 1” 这 两 种 方式 来 实现 。 


1.2.4 控制 结构 语句 


在 Scala 中 ,控制 结构 语句 包括 条 件 分 支 语 句 和 循环 语句 。 其 中 ,条 件 分 支 语句 有 计 语 
名 ,if…else 语句 .if…else if…else 语句 以 及 if…else 艇 套 语 句 ; 循 环 语句 有 for 循环 .while 
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循环 和 do…while 循环 。 条 件 分 支 语 句 和 循环 语句 的 语法 格式 具体 如 下 。 
1. 条 件 分 支 语句 
让 语句 的 语法 格式 如 下 : 


if…else 语句 的 语法 格式 如 下 : 


if…else if*…else 语句 的 语法 格式 如 下 : 


if…else 撕 套 语句 的 语法 格式 如 下 : 


接 下 来 ,通过 一 个 判断 变量 值 的 案例 来 演示 条 件 分 支 语句 的 使 用 。 假 设 现在 要 判断 一 
个 变量 是 否 等 于 5, 如果 是 5, 则 打印 出 “a 的 值 为 5”, 如 果 不 是 5, 则 判断 该 变量 是 否 等 于 
10, 如 果 是 10, 则 打印 出 “a 的 值 为 10”, 否 则 ,打印 出 “无 法 判断 a 的 值 ”, 示 例 代码 如 下 : 
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2. 循环 语句 


Scala 中 的 for 循环 语句 和 Java 中 的 for 循环 语句 在 语法 上 有 较 大 的 区 别 , 对 于 Java 的 
for 循环 ,这 里 不 作 装 述 。 接 下 来 ,介绍 一 下 Scala 中 的 for 循环 语句 。 
for 循环 语句 的 语法 格式 如 下 : 


下 面 ,通过 从 0 循环 到 9, 每 循环 一 次 将 该 值 打印 输出 进行 操作 演示 。 在 Scala 语法 中 ， 
可 以 使 用 *0 to 9” 表 示 从 0 到 9 的 范围 ,范围 包含 9, 示例 代码 如 下 : 


Scala 在 for 循环 语句 中 可 以 通过 使 用 计 判 断 语句 过 滤 一 些 元 素 ,多 个 过 滤 条 件 用 分 号 
分 隔 开 。 例 如 ,输出 0 一 9 范围 中 大 于 5 的 偶数 ,示例 代码 如 下 : 


Scala 中 的 while 循环 语句 和 Java 中 的 完全 一 样 , 只 要 表达 式 为 true, 循 环 体 就 会 重复 
执行 。Scala 中 while 循环 语句 的 语法 格式 如 下 : 


下 面 ,打印 输出 奇数 的 案例 来 演示 while 的 使 用 。 假 设 有 一 个 变量 x 二 1, 判 断 该 变量 
是 否 小 于 10, 如 果 是 则 打印 输出 ,然后 再 进行 十 2 运算 。 示 例 代码 如 下 : 
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do…while 循环 语句 的 语法 格式 如 下 : 


do…while 循环 语句 与 while 语句 主要 区 别 是 ,do…while 语句 的 循环 语句 至 少 执行 一 
次 。 接 下 来 ,通过 数字 递增 案例 演示 do… while 的 使 用 。 假 设 一 个 变量 x 二 10, 先 打印 输 
出 ,然后 进行 十 1 运算 ,再 判断 该 变量 是 否 小 于 20, 如 果 是 则 进行 循环 。 示 例 代码 如 下 : 


1.2.5 方法 和 函数 


Scala 和 Java 一 样 也 有 方法 和 函数 。Scala 的 方法 是 类 的 一 部 分 ,而 函数 是 一 个 对 象 可 
以 赋值 给 一 个 变量 。 换 名 话 来 说 ,在 类 中 定义 的 函数 即 是 方法 。 

Scala 中 可 以 使 用 def 语句 和 val 语句 定义 函数 ,而 定义 方法 只 能 使 用 def 语句 。 下 面 
分 别 讲解 Scala 的 方法 和 函数 。 


1. 方法 
Scala 方法 的 定义 格式 如 下 : 


从 上 面 的 代码 可 以 看 出 ,Scala 的 方法 是 由 多 个 部 分 组 成 的 ,具体 如 下 。 
。 def: Scala 的 关键 字 , 并 且 是 固定 不 变 的 ,一 个 方法 的 定义 是 由 def 关键 字 开 始 的 。 
。 functionName: Scala 方法 的 方法 名 。 
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。 [参数 列表 ]) :[return type]: Scala 方法 的 可 选 参数 列表 ,参数 列表 中 的 每 个 参数 
都 有 一 个 名 字 ,参数 名 后 跟着 骨 号 和 参数 类 型 。 

。 function body: 方法 的 主体 。 

。 return [expr]: Scala 方 法 的 返回 类 型 ,可 以 是 任意 合法 的 Scala 数据 类 型 。 若 没有 
返回 值 , 则 返回 类 型 为 Unit。 

下 面 ,定义 一 个 方法 add() ,实现 两 个 数 相 加 求 和 ,示例 代码 如 下 : 


Scala 的 方法 调用 的 格式 如 下 : 


下 面 ,在 类 Test 中 ,定义 一 个 方法 addInt() ,实现 两 个 整数 相 加 求 和 。 在 这 里 ,通过 “类 
名 .方法 名 (参数 列表 ) "来 进行 调用 ,示例 代码 如 下 : 


2. 函数 


在 Scala 中 ,由 于 使 用 def 语句 定义 以 及 调用 函数 的 格式 均 与 方法 一 样 ,因此 ,这 里 不 作 
获 述 。 然 而 ,Scala 函数 与 Scala 方法 也 是 有 区 别 的 ,可 以 使 用 val 语句 定义 函数 的 格式 ,并 
且 函 数 必 须要 有 参数 列表 ,而 方法 可 以 没有 参数 列表 。 接 下 来 ,介绍 使 用 val 语句 定义 和 调 
用 函数 的 具体 格式 。 

Scala 函数 的 定义 格式 如 下 : 
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下 面 ,定义 一 个 函数 addInt() ,实现 两 个 整数 相 加 求 和 ,示例 代码 如 下 : 


3. 方法 转换 成 函数 
方法 转换 成 函数 的 格式 如 下 : 


在 上 述 的 格式 中 ,方法 名 m 后面 紧 跟 一 个 空格 和 下 面 线 , 是 为 了 告知 编译 器 将 方法 m 
转换 成 函数 ,而 不 是 要 调用 这 个 方法 。 下 面 ,定义 一 个 方法 m, 实 现 将 方法 m 转 成 函数 , 示 
例 代码 如 下 : 


小 提示 : 
Scala 方法 的 返回 值 类 型 可 以 不 写 ,编译 器 可 以 自动 推断 出 来 ,但 是 对 于 递归 函数 来 说 ， 
必须 要 指定 返回 类 型 。 


1.3 Scala 的 数据 结构 

在 编写 程序 代码 时 ,经 常 需要 用 到 各 种 数据 结构 ,选择 合适 的 数据 结构 可 以 带 来 更 高 的 
运行 或 者 存储 效率 ,Scala 提供 了 许多 数据 结构 ,例如 常见 的 数组 ,元 组 和 集合 等 。 
1.3.1 数组 


对 于 每 一 门 编程 语言 来 说 ,数组 (Array) 都 是 重要 的 数据 结构 之 一 ,主要 用 来 存储 数据 
类 型 相同 的 元 素 。 下 面 ,针对 数组 的 定义 与 使 用 、 数 组 遍历 以 及 数组 转换 操作 进行 详细 
介绍 。 
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1. 数组 定义 与 使 用 
Scala 中 的 数组 分 为 定 长 数组 和 变 长 数组 ,这 两 种 数组 的 定义 方式 如 下 : 


上 述 语法 格式 中 ,定义 定 长 数组 ,需要 使 用 new 关键 字 ,而 定义 变 长 数组 时 , 则 需要 导 
人 包 import scala. collection. mutable. ArrayBuffer。[T] 表 示 的 是 数组 元 素 的 类 型 ,T 为 
泛 型 。 

当 定 义 好 数组 后 ,可 以 对 数组 进行 追加 、 插 入 以 及 删除 等 操作 。 针 对 不 同 的 数组 操作 ， 
Array 提供 了 不 同 的 API。 

下 面 ,通过 一 个 例子 来 演示 Scala 数组 的 简单 使 用 ,具体 代码 如 文件 1-2 所 示 。 


文件 1-2 ArrayDemo. scala 


第 1 章 ”Scala 语言 基础 


上 述 代码 中 ,第 5 一 7 行 代码 定义 了 一 个 定 长 数组 arrl 并 打印 数组 对 象 ;第 10 一 30 行 
代码 定义 了 一 个 变 长 数组 ab 并 对 数组 对 象 进行 了 追加 、 插 入 和 删除 等 操作 。 
运行 文件 1-2 中 的 代码 ,控制 台 输 出 结果 如 图 1-19 所 示 。 


oft\JDK\bi 
[I@ea4a92b 
ArrayBuffer (1) 
ArrayBuffer (1, 2, 3, 4, 5) 
| ArrayBuffer (1, 2, 3, 4, 5, 6, 7) 


ArrayBuffer (1, 2, 3, 4, 5, 6, 7, 8, 9) 
ArrayBuffer(-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9)| 
ArrayBuffer (0, 1, 2, 3, 4, 5, 6, 7, 8, 9) 


Process finished with exit code 0 


图 1-19 Scala 数组 定义 与 使 用 的 输出 结果 


2. 数组 遍历 


Scala 中 ,如 果 想 要 获取 数组 中 的 每 一 个 元 素 , 则 需要 将 数组 进行 遍历 操作 。 数 组 的 遍 
历 有 3 种 方式 ,分 别 是 for 循环 遍历 .while 循环 遍历 以 及 do…while 循环 遍历 。 接 下 来 使 用 
for 循环 对 数组 进行 遍历 操作 。 具 体 代码 如 文件 1-3 所 示 。 

文件 1-3 ArrayTraversal. scala 


上 述 代码 中 ,第 3 一 7 行 代码 定义 了 一 个 定 长 数组 myArr 并 通过 遍历 打印 该 数组 ;第 1 一 15 
行 代码 定义 了 一 个 变量 total 并 赋值 为 0. 0, 通 过 遍历 计算 数组 所 有 元 素 的 总 和 ;第 17 一 21 行 
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定义 了 一 个 变量 max 并 赋值 为 数组 myArr 中 的 第 一 个 元 素 , 通 过 遍历 查找 出 myArr 数组 中 的 
最 大 元 素 。 
运行 文件 1-3 中 的 代码 ,控制 台 输出 结果 如 图 1-20 所 示 。 


Pl D:\Soft\JDK\bin\java ... 

本 | 1-9 2-9 3.4 3.5 

而 | 如 总 和 为 11.7 

由 最 大 值 为 3-5 

相 | 层 Process finished with exit code 0 

| 

Bb 

图 1-20 遍历 数组 的 控制 台 打 印 输出 

3. 数组 转换 


数组 转换 就 是 通过 yield 关键 字 将 原始 的 数组 进行 转换 ,会 产生 一 个 新 的 数组 ,然而 原 
始 的 数组 保持 不 变 。 下 面 演示 数组 的 转换 ,定义 一 个 数组 ,实现 将 偶数 取出 乘 以 10 后 生成 
一 个 新 的 数组 ,具体 代码 如 文件 1-4 所 示 。 

文件 1-4 ArrayYieldTest. scala 


1 object ArrayYieldTest { 

2 def main (args: Array[ string]) { 

加 // 定 义 一 个 数组 

4 Val arr =Array(l, 2, 3, 4, 5, 6, 7, 8, 9) 

5 // 将 偶数 取出 乘 以 10 后 再 生成 一 个 新 的 数组 

6 Val newArr =for (e <-arr if e %2==0) yielde * 10 
Println (newArr.toBuffer) 

8 

$ 


} 


上 述 代码 中 ,第 4 一 7 行 代码 定义 了 一 个 定 长 数组 arr 并 通过 求偶 和 算术 操作 ,将 数组 
arr 转换 成 一 个 新 数组 newArr, 最 终 打印 newArr 数组 。 
运行 文件 1-4 中 的 代码 ,控制 台 输 出 结果 如 图 1-21 所 示 。 


Run 而 AmayyieldTest 


j* | 个 ，D:NSoftNVODKNbinNjava ... 
加 | 4 ArrayBuffer (20, 40, 60, 80) 
由 Process finished with exit code 0 
让 | 时 
| | 会 
图 1-21 数组 转换 的 控制 台 输出 
本 有 组 


Scala 的 元 组 是 对 多 个 不 同类 型 对 象 的 一 种 简单 封装 , 它 将 不 同 的 值 用 括号 括 起 来 ,并 
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用 逗号 作 分 隔 , 即 表示 元 组 。 
1. 创建 元 组 
创建 元 组 的 语法 格式 如 下 : 
valtuple= (元 素 ,元 素 …) 


下 面 ,通过 简单 的 例子 演示 如 何 创 建 元 组 。 例 如 ,创建 一 个 包含 String 类 型 ,Double 类 
型 以 及 Int 类 型 的 元 组 ,具体 代码 如 下 : 


scala>val tuple = ("itcast",3.14,65535) 
tuple: (String，Double，Int) = (itcast,3.14,65535) 


2. 获取 元 组 中 的 值 


在 Scala 中 ,获取 元 组 中 的 值 是 通过 下 画 线 加 脚 标 ( 如 tuple. _1,tuple. _2) 来 获取 的 ,元 
组 中 的 元 素 脚 标 是 从 1 开始 的 。 接 下 来 ,通过 简单 的 例子 演示 如 何 获取 元 组 中 的 值 。 例 如 ， 
获取 元 组 的 第 一 个 元 素 的 值 和 第 二 个 元 素 的 值 ,具体 代码 如 下 : 


scala>tuple._1 # 获 取 第 一 个 元 素 的 值 
res2: String =itcast 
scala>tuple。 2 + 获取 第 二 个 元 素 的 值 


res3: Double =3.14 


3. 拉链 操作 


在 Scala 的 元 组 中 ,可 以 通过 使 用 zip 命令 将 多 个 值 绑 定 在 一 起 。 若 两 个 数组 的 元 素 个 
数 不 一 致 , 则 拉链 操作 后 生成 的 数组 的 长 度 为 较 小 的 那个 数组 的 元 素 个 数 。 下 面 ,通过 简单 
的 例子 演示 如 何 进行 拉链 操作 。 例 如 ,定义 两 个 数组 ,分 别 是 scores 和 names, 将 这 两 个 数 
组 捆绑 在 一 起 ,具体 代码 如 下 : 


scala>val scores =Array (88, 95, 80) 

scores: Array[ Int] =Array (88, 95, 80) 

scala>val names =Array ("zhangsan", "lisi", "wangwu") 

names: Array[ string] =Array (zhangsan, lisi, wangwu) 

scala>names.zip (scores) 

res5: Rrray[ (string, Int)] =Array((zhangsan, 88), (lisi,95), (wangwu,80)) 


1.3.3 集合 


在 Scala 中 ,集合 有 三 大 类 : List、Set 和 Map, 所 有 的 集合 都 扩展 自 Iterable 特质 。 
Scala 集合 分 为 可 变 的 (mutable) 和 不 可 变 (immutable) 的 集合 。 其 中 ,可 变 集合 可 以 在 适当 
的 地 方 被 更 新 或 扩展 。 这 意味 着 ,可 以 对 集合 元 素 进 行 修改 .添加 、 移 除 : 不 可 变 集合 , 相 比 
之 下 ,初始 化 后 就 永远 不 会 改变 。 不 过 ,可 以 通过 模拟 来 添加 、 移 除 或 更 新 元 素 ,但 这 些 操作 
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在 每 一 种 情况 下 都 返回 一 个 新 的 集合 ,同时 保持 原来 的 集合 不 变 。 


1. List 


在 Scala 中 ,List 列表 和 数组 类 似 ,列表 的 所 有 元 素 都 具有 相同 类 型 。 然 而 ,列表 与 数 
组 不 同 的 是 ,列表 是 不 可 变 的 ( 即 列表 的 元 素 不 能 通过 赋值 来 更 改 )。 
定义 不 同类 型 列表 List, 具 体 代码 如 下 : 


上 述 定义 列表 的 代码 定义 了 字符 串 列 表 、 整 型 列表 、 空 列表 以 及 二 维 列表 。 在 Scala 
中 ,可 以 使 用 Nil 和 : :操作 符 来 定义 列表 。 其 中 ,Nil 表示 空 列表 ;: : 意 为 构造 ,向 列表 的 头 
部 追加 数据 ,创造 新 列表 。 使 用 Nil 和 : :操作 符 定义 列表 的 代码 如 下 : 


列表 List 作为 Scala 中 的 数据 结构 之 一 ,Scala 也 提供 了 很 多 操作 List 的 方法 。 接 下 
来 ,列举 一 些 操作 List 的 常见 方法 ,如 表 1-1 所 示 。 


表 1-1 Scala 中 操作 List 的 常见 方法 


head 获取 列表 第 一 个 元 素 

tail 返回 除 第 一 个 元 素 之 外 的 所 有 元 素 组 成 的 列表 
isEmpty 车 列表 为 空 , 则 返回 true, 否 则 返回 false 

take 获取 列表 前 n 个 元 素 

contains 判断 是 否 包含 指定 元 素 
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在 表 1-1 中 ,列举 了 操作 List 列表 的 常见 方法 ,如 果 读 者 想 要 学 习 更 多 操作 List 的 方 
法 ,请 参考 https://www. scala-lang. org/api/current/scala/collection/immutable/List. 
html 进行 学 习 。 下 面 , 通 过 简单 的 例子 演示 如 何 操作 List 列表 。 例 如 ,定义 一 个 fruit 列 
表 , 使 用 常见 的 方法 对 列表 fruit 进行 相关 的 操作 ,具体 代码 如 文件 1-5 所 示 。 

文件 1-5 ListTest. scala 


1 object ListTest{ 

def main (args: Array[ string]) { 

3 Val fruit ="apples" :: ("oranges" :: ("pears" :: Nil)) 

4 Val nums =Nil 

- Println("Head of fruit : " +fruit.head) 

[3 Println("Tail of fruit : " +fruit.tail) 

1 println ("Check if fruit is empty : " +fruit.isEmpty) 

8 Println("Check if nums is empty : " +nums.isEmpty) 

9 Println("Tail of fruit : " +fruit.take (2)) 

10 println ("Contains of fruit : " +fruit.contains ("apples")) 


上 述 代码 中 ,第 3 一 10 行 代码 定义 了 一 个 字符 串 列表 fruit 并 进行 相关 操作 , 即 获取 该 
列表 中 的 指定 元 素 ,判断 列表 是 否 为 空 以 及 判断 列表 是 否 包含 指定 元 素 等 。 
运行 文件 1-5 中 的 代码 ,效果 如 图 1-22 所 示 。 


4 D:\Soft\JDK\bin\java ... 
§ Head of fruit : apples 

BB Tail of fruit : List(oranges, pears) 
贺 Check if fruit is empty : false 
时 
会 


Check if nums is empty : true 
Tail of fruit : List(apples, oranges) 
Contains of fruit : 


true 


Process finished with exit code 0 


图 1-22 操作 List 列表 的 打印 输出 


2. Set 


在 Scala 中 ,Set 是 没有 重复 对 象 的 集合 ,所 有 元 素 都 是 唯一 的 。 默 认 情况 下 ,Scala 使 用 不 可 
变 Set 集合 , 若 想 使 用 可 变 的 Set 集合 , 则 需要 引入 scala. collection. mutable. Set 包 。 
定义 Set 集合 的 语法 格式 如 下 : 


val set: Set[Int] =Set (1,2,3,4,5) 


Scala 提供 了 很 多 操作 Set 集合 的 方法 。 接 下 来 ,列举 一 些 操作 Set 集合 的 常见 方法 ， 
如 表 1-2 所 示 。 

在 表 1-2 中 ,列举 了 操作 Set 集合 的 常见 方法 ,如 果 读 者 想 要 学 习 更 多 操作 Set 集合 的 
方法 ,请 参考 https://www. scala-lang. org/api/current/scala/collection/Set. html 进行 
学 习 。 
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表 1-2 Scala 中 操作 Set 集合 的 常见 方法 


方法 名 称 相关 说 明 

head 获取 Set 集合 的 第 一 个 元 素 

tail 返回 除 第 一 个 元 素 之 外 的 所 有 元 素 组 成 的 Set 集合 
isEmpty 车 Set 集合 为 空 , 则 返回 true, 否 则 返回 false 

take 获取 Set 集合 前 个 元 素 

contains 判断 Set 集合 是 否 包 含 指定 元 素 


接 下 来 ,定义 一 个 Set 集合 site, 使 用 常见 的 方法 对 集合 site 进行 相关 操作 ,具体 代码 如 
文件 1-6 所 示 。 
文件 1-6 SetTest. scala 


object SetTest { 


def main (args: Array[ string]) { 
Val site =Sset ("Itcast", "Google", "Baidu") 
val nums: Set[Int] =Set () 
println( "第 一 网 站 是 : " + site.head ) 
println( "最 后 一 个 网 站 是 : " +site.tail ) 
println( "查看 集合 site 是 否 为 空 : " + site.isEmpty ) 
Println( "查看 nums 是 否 为 空 : " +nums .isEmpty ) 
Println ("查看 site 的 前 两 个 网 站 : " + site.take (2) ) 
println (" 查 看 集合 是 否 包含 网 站 Itcast : " +site.contains ("Itcast")) 


上 述 代 码 中 ,第 2 一 10 行 代 码 是 主 方法 main() ,在 主 方法 中 定义 了 两 个 Set 集合 site 和 
nums, 并 对 集合 site 和 nums 进行 相关 操作 , 即 获取 集合 中 的 指定 元 素 、 判 断 集合 是 否 为 空 
以 及 判断 集合 是 否 包含 指定 元 素 等 。 

运行 文件 1-6 中 的 代码 ,效果 如 图 1-23 所 示 。 


RnBseret 闪 - 土 
Pit D:\Soft\JDK\bin\java ... 
站 第 一 网 站 是 : Itcast 


最 后 一 个 网 站 是 : set (Google，Baidu) 
查看 集合 site 是 否 为 宇 : false 

国 二 有 mums 是 可 为 宝 。 rrue 

会 


| 
| 旭 查看 site 的 前 两 个 网 站 : set (Itcast，coogle) 
国 查看 集合 是 否 包含 网 站 Ttcast : true 
1 Process finished with exit code 0 
1-23 ”操作 Set 集合 的 打印 输出 
3. Map 


在 Scala 中 ,Map 是 一 种 可 迭代 的 键 值 对 (key/value) 结 构 , 并 且 键 是 唯一 的 , 值 不 一 定 
是 唯一 的 ,所 有 的 值 都 是 通过 键 来 获取 的 。Map 中 所 有 元 素 的 键 与 值 都 存在 一 种 对 应 关 


系 , 这 种 关系 即 为 映射 。Map 有 两 种 类 型 ,可 变 与 不 可 变 , 区 别 在 于 可 变 对 象 可 修改 ,而 不 
可 变 对 象 不 可 修改 。 在 Scala 中 ,可 以 同时 使 用 可 变 与 不 可 变 Map ,默认 使 用 不 可 变 Map。 
需要 使 用 可 变 的 Map 集合 , 则 需要 引入 import scala. collection. mutable. Map 类 。 
定义 Map 集合 的 语法 格式 如 下 : 


var A:Map[ char, Int] =Map ( 键 -> 值 , 键 -> 值 …) //Map 键 值 对 , 键 为 char, 值 为 Int 


Scala 也 提供 了 很 多 操作 Map 集合 的 方法 。 接 下 来 ,列举 一 些 操 作 Map 集合 的 常见 方 
法 ,如 表 1-3 所 示 。 


表 1-3 Scala 中 操作 Map 集合 的 常见 方法 


方法 名 称 相关 说 明 
0 根据 某 个 键 查 找 对 应 的 值 ,类 似 于 Java 中 的 get() 
contains() 检查 Map 中 是 否 包含 某 个 指定 的 键 
getOrElse() 判断 是 否 包含 键 , 若 包 含 返 回 对 应 的 值 ,否则 返回 其 他 的 值 
keys 返回 Map 所 有 的 键 (key) 
values 返回 Map 所 有 的 值 (value) 
isEmpty Map 为 空 时 ,返回 true 


在 表 1-3 中 ,列举 了 常见 的 操作 Map 集合 的 方法 ,如 果 读者 想 要 学 习 更 多 操作 Map 集 
合 的 方法 ,请 参考 https://www. scala-lang. org/api/current/scala/collection/immutable/ 
Map. html 进行 学 习 。 

接 下 来 ,定义 一 个 Map 集合 colors, 使 用 Map 常见 的 方法 对 集合 colors 进行 相关 的 操 
作 , 具 体 代码 如 文件 1-7 所 示 。 

文件 1-7 MapTest. scala 


1 object MapTest{ 

2 def main (args: Array[ string]) { 

3 Val colors =Map ("red" ->"#FF0000", 

4 "azure" ->"#FOFFFF", 

5 "peru" ->"#CD853F") 

[3 Val peruColors=if (colors.contains ("peru")) colors("peru") else 0 
uh Val azureColor =colors.getorElse ("azure", 0) 

网 println ("获取 colors 中 键 为 red 的 值 :"+colors ("red")) 

9 println ("获取 colors 中 所 有 的 键 : " +colors.keys) 


10 println ("获取 colors 中 所 有 的 值 : " +colors.values) 

hh Println ("检测 colors 是 否 为 空 : " +colors.isEmpty) 

12 println ("判断 colors 是 否 包含 键 peru 包含 则 返回 对 应 值 ,否则 返回 0:"+perucolors) 
43 println ("判断 colors 是 否 包含 键 azure, 包 含 则 获取 对 应 值 ,否则 返回 0:"+azurecolor) 
14 } 

5 


上 述 代码 中 ,第 2 一 13 行 代码 是 主 方法 main(), 在 主 方法 中 定义 了 一 个 Map 集合 
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colors, 并 对 集合 colors 进行 相关 操作 , 即 获取 该 集合 中 的 指定 键 的 值 .判断 集合 是 否 为 空 
以 及 判断 集合 是 否 包含 指定 键 等 。 
运行 文件 1-7 中 的 代码 ,效果 如 图 1-24 所 示 。 


D:\Soft\JDK\bin\java - 

获取 colors 中 键 为 red 的 值 :#FF0000 

获取 colors 中 所 有 的 键 : set (red, azure, peru) 

获取 colors 中 所 有 的 值 : MapLike (#FF0000，#FOFFFF,，#CD853F) 
检测 colors 是 否 为 宇 : false 

判断 colors 是 否 包 含 刍 peru 包 含 则 返回 对 应 值 ， 否 则 返回 0:#cD853F 
判断 colors 是 否 包含 键 azure， 包 含 则 获取 对 应 值 ， 否 则 返回 0:#FOFFFE 


于 中 


Process finished with exit code 0 
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图 1-24 操作 Map 集合 的 打印 输出 


1.4 Scala 面向 对 象 的 特性 


Scala 是 一 种 面向 对 象 的 语言 ,并 且 运 行 在 JVM 中 。 接 下 来 ,针对 Scala 面向 对 象 的 特 
性 进行 详细 讲解 。 


1.4.1 类 与 对 象 


无 论 是 在 Scala 中 还 是 Java 中 ,类 都 是 对 象 的 抽象 ,而 对 象 都 是 类 的 具体 实例 ;类 不 占 
用 内 存 , 而 对 象 占用 存储 空间 。 由 于 面向 对 象 的 核心 是 对 象 , 若 想 要 在 应 用 程序 中 使 用 对 
象 ,就 必须 先 创建 一 个 类 。 类 是 用 来 描述 一 组 对 象 的 共同 特征 和 行为 的 。 

创建 类 的 语法 格式 如 下 : 


class 类 名 [参数 列表 ] 


上 述 语法 格式 中 ,关键 字 class 主要 用 于 创建 类 。[ 参 数列 表 ] 表 示 Scala 中 类 定义 可 以 
有 参数 ,也 可 以 无 参数 , 若 有 参数 则 称 为 类 参数 。 需 要 注意 的 是 ,Scala 中 的 类 不 需要 关键 字 
public 声明 为 公共 的 ,并 且 一 个 Scala 源 文件 中 可 以 拥有 多 个 类 。 

当 类 创建 好 之 后 ,若是 想 要 访问 类 中 的 方法 和 字段 ,就 需要 创建 一 个 对 象 。 

创建 对 象 的 语法 格式 如 下 : 


类 名 对 象 名 称 =new 类 名 () ; 


上 述 语法 格式 中 ,关键 字 new 主要 用 于 创建 类 的 实例 对 象 。 

下 面 创建 一 个 Point 类 ,并 在 类 中 定义 两 个 字段 x 和 y 以 及 一 个 没有 返回 值 的 move() 方 
法 ,使 用 Point 类 的 实例 对 象 来 访问 类 中 的 方法 和 字段 ,代码 如 文件 1-8 所 示 。 

文件 1-8 ClassTest. scala 


EE class Point (xc: Int, yc: Int) { 
2 Var x: Int =xc 
3 Var y: Int =yc 
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上 述 代码 中 ,第 1 一 10 行 代码 是 创建 了 一 个 Point 类 ,并 在 类 中 定义 了 两 个 字段 x,y 以 
及 一 个 方法 move() ;第 12 一 15 行 代码 是 主 方法 main(), 即 程序 的 人口 ,在 主 方法 中 创建 类 
的 实例 对 象 pt, 使 用 该 对 象 访问 类 中 方法 move() 和 字段 的 操作 ;第 11 行 代码 中 的 object 这 
里 不 作 介绍 ,在 后 面 的 小 节 中 会 进行 介绍 。 

运行 文件 1-8 中 的 代码 ,效果 如 图 1-25 所 示 。 


Process finished with exit code 0 


图 1-25 实例 对 象 访问 类 中 方法 和 字段 的 运行 结果 


1.4.2 继承 


Scala 和 Java 类 似 ,只 允许 继承 一 个 父 类 。 不 同 的 是 ,Java 只 能 继承 父 类 中 非 私 有 的 属 
性 和 方法 ,而 Scala 可 以 继承 父 类 中 的 所 有 属性 和 方法 。 

在 Scala 子 类 继承 父 类 的 时 候 , 需 要 注意 以 下 几 点 。 

(1) 如 果子 类 要 重 写 一 个 父 类 中 的 非 抽 象 方法 , 则 必须 使 用 override 关键 字 ,否则 会 出 
现 语法 错误 。 

(2) 如 果子 类 要 重 写 父 类 中 的 抽象 方法 , 则 不 需要 使 用 override 关键 字 。 

下 面 ,创建 一 个 Point 类 和 一 个 Location 类 ,并 且 Location 类 继承 Point 类 ,演示 子 类 
Location 重 写 父 类 Point 中 的 字段 ,具体 代码 如 文件 1-9 所 示 。 

文件 1-9 ExtendsTest. scala 
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上 述 代码 中 ,第 1 一 10 行 代码 是 创建 了 一 个 Point 类 ,并 在 类 中 定义 了 两 个 字段 x,y 以 
及 一 个 方法 move(); 第 11 一 22 行 代码 是 创建 了 一 个 Location 类 ,继承 Point 类 并 重 写 
Point 类 的 字段 ,在 Location 类 中 定义 了 3 个 字段 x、y、z 以 及 一 个 方法 move() ;第 24 一 27 
行 代 码 是 主 方法 main() ,并 在 主 方法 中 创建 Location 的 实例 对 象 loc ,使 用 该 对 象 访问 子 类 
中 的 move() 方 法 。 

运行 文件 1-9 中 的 代码 ,效果 如 图 1-26 所 示 。 


Process finished with exit code 0 


图 1-26 子 类 重 写 父 类 字段 的 运行 结果 


1.4.3 单 例 对 象 和 伴生 对 象 


在 Scala 中 ,没有 静态 方法 或 静态 字段 ,所 以 不 能 直接 用 类 名 访问 类 中 的 方法 和 字段 ， 
而 是 通过 创建 类 的 实例 对 象 去 访问 类 中 的 方法 和 字段 。 但 是 ,Scala 中 提供 了 object 这 个 关 
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键 字 用 来 实现 单 例 模 式 ,使 用 关键 字 object 创建 的 对 象 为 单 例 对 象 。 
创建 单 例 对 象 的 语法 格式 如 下 : 


上 述 语法 格式 中 ,关键 字 object 主要 用 于 创建 单 例 对 象 ;objectrName 为 单 例 对 象 的 名 称 。 
下 面 ,创建 一 个 单 例 对 象 SingletonObject, 代 码 如 文件 1-10 所 示 。 
文件 1-10 Singleton. scala 


上 述 代 码 中 ,第 2 一 4 行 代码 是 创建 了 一 个 单 例 对 象 SingletonObject, 并 在 该 对 象 中 定 
义 了 一 个 方法 hello() ;第 8 一 9 行 代码 是 主 方法 main() ,并 在 主 方法 中 使 用 单 例 对 象 访问 自 
己 的 方法 hello()。 

运行 文件 1-10 中 的 代码 ,效果 如 图 1-27 所 示 。 


Hello, This is singleton Object 


Process finished with exit code 0 


图 1-27 单 例 对 象 的 运行 结果 


在 Scala 中 ,在 一 个 源 文件 中 有 一 个 类 和 一 个 单 例 对 象 , 若 单 例 对 象 名 与 类 名 相同 , 则 
把 这 个 单 例 对 象 称 作 伴生 对 象 (companion object) ;这 个 类 则 被 称 为 是 单 例 对 象 的 伴生 类 
(companion class)。 类 和 伴生 对 象 之 间 可 以 相互 访问 私有 的 方法 和 字段 。 

下 面 ,定义 一 个 伴生 对 象 Dog, 演 示 如 何 操 作 类 中 的 私有 方法 和 字段 。 具 体 代 码 如 文 
件 1-11 所 示 。 

文件 1-11 Dog. scala 
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上 述 代码 中 ,第 1 一 6 行 代码 是 创建 了 一 个 类 Dog ,并 在 该 类 中 定义 了 两 个 字段 id、 
name 以 及 一 个 方法 printName() ;第 10 一 18 行 代码 是 创建 一 个 伴生 对 象 Dog ,并 在 该 对 象 
中 定义 一 个 字段 CONSTANT ,在 主 方法 main 中 ,创建 Dog 类 的 实例 对 象 ,再 使 用 实例 对 
象 访问 类 中 的 字段 和 方法 。 

运行 文件 1-11 中 的 代码 ,效果 如 图 1-28 所 示 。 


Process finished with exit code 0 


图 1-28 伴生 对 象 访问 类 中 方法 和 字段 的 运行 结果 


1.4.4 特质 


在 Scala 中 ,Trait( 特 质 ) 的 功能 类 似 于 Java 中 的 接口 ,但 Trait 的 功能 比 Java 中 的 接 
口 强大 。 例 如 ,Trait 可 以 对 定义 字段 和 方法 进行 实现 ,而 接口 却 不 能 。Scala 中 的 Trait 可 
以 被 类 和 对 象 (Objects) 使 用 关键 字 extends 来 继承 。 

创建 特质 的 语法 格式 如 下 : 


上 述 语 法 格式 中 ,关键 字 trait 主要 用 于 创建 特质 ;traitName 为 特质 的 名 称 。 
下 面 ,创建 一 个 特质 Animal ,演示 类 继承 特质 并 访问 特质 中 方法 的 操作 。 具 体 代码 如 
文件 1-12 所 示 。 
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文件 1-12 People. scala 


上 述 代码 中 ,第 1 一 7 行 代码 创建 了 一 个 特质 Animal, 并 在 该 特质 中 定义 了 3 个 方法 
speak() \listen() 和 run(); 第 10 一 12 行 代 码 创 建 了 一 个 类 People 并 继承 特质 Animal , 重 写 
特质 中 的 方法 speak() ;第 15 一 20 行 代 码 是 主 方法 main() ,在 主 方法 中 创建 People 类 的 实 
例 对 象 people, 再 使 用 实例 对 象 访问 特质 Animal 中 的 方法 。 

运行 文件 1-12 中 的 代码 ,效果 如 图 1-29 所 示 。 

DNSGEENIUNSN 


I'm speaking English 
I'm running 


| process finished with exit code 0 


图 1-29 类 继承 特质 并 访问 特质 中 方法 的 运行 结果 


1.5 ”Scala 的 模式 匹配 与 样 例 类 


Scala 提供 了 强大 的 模式 匹配 机 制 ,最 常见 的 模式 匹配 就 是 match 语句 ,主要 应 用 于 从 
多 个 分 支 中 进行 选择 的 场景 。 不 仅 如 此 ,Scala 还 提供 了 样 例 类 , 它 可 以 对 模式 匹配 进行 优 
化 ,提高 匹配 的 速率 。 接 下 来 ,针对 Scala 提供 的 模式 匹配 和 样 例 类 进行 详细 讲解 。 
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1.5.1 模式 匹配 


Scala 中 的 模式 匹配 是 由 match case 组 成 , 它 类 似 于 Java 中 的 switch case, 即 对 一 个 值 
进行 条 件 判 断 , 针 对 不 同 的 条 件 ,进行 不 同 的 处 理 。 
模式 匹配 的 语法 格式 如 下 : 


上 述 语法 格式 中 , match 关键 字 主 要 用 来 描述 一 个 表达 式 , 位 于 表达 式 位 置 的 后 面 ; 
case 关键 字 主 要 用 来 描述 和 表达 式 结果 进行 比较 后 的 模式 , 若 发 现 有 一 个 模式 可 以 与 表达 
式 结果 进行 匹配 , 则 执行 所 匹配 模式 对 应 的 语句 ,而 剩 下 的 模式 就 不 会 继续 进行 匹配 。 

下 面 ,定义 一 个 方法 matchTest() ,方法 的 参数 是 一 个 整 型 字段 ,而 方法 的 调用 则 是 对 
参数 进行 模式 匹配 , 若 参 数 匹配 的 是 1, 则 打印 输出 one; 若 参数 匹配 的 是 2, 则 打印 输出 
two; 若 参数 匹配 的 是 _, 则 打印 输出 many, 具 体 实现 代码 如 文件 1-13 所 示 。 

文件 1-13 PatternMatch. scala 


在 文件 1-13 中 ,第 3 行 代码 调用 了 matchTest() 方 法 ,传人 的 参数 是 3, 此 时 ,与 case _ 
进行 匹配 ,由 于 case _ 对 应 的 执行 语句 是 打印 输出 many, 所 以 控制 台 会 输出 many, 控 制 台 
的 输出 结果 如 图 1-30 所 示 。 


Process finished with exit code 0 


图 1-30 ”模式 匹配 操作 控制 台 输 出 的 结果 
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1.5.2 样 例 类 


在 Scala 中 ,使 用 case 关键 字 来 定义 的 类 被 称 为 样 例 类 。 样 例 类 是 一 种 特殊 的 类 ,经 过 
优化 可 以 被 用 于 模式 匹配 。 下 面 ,使 用 case 定义 样 例 类 Person, 并 将 该 样 例 类 应 用 到 模式 
匹配 中 ,具体 代码 如 文件 1-14 所 示 。 

文件 1-14 CaseClass. scala 


上 述 代码 中 ,第 3 行 代码 创建 了 一 个 样 例 类 Person; 第 4 一 14 行 代码 是 主 方法 main()， 
在 主 方法 中 创建 了 样 例 类 Person 的 3 个 实例 对 象 alice .bob 和 charlie, 并 通过 模式 匹配 将 
实例 对 象 与 样 例 类 Person 进行 匹配 ,从 而 进行 不 同 的 处 理 。 

运行 文件 1-14 中 的 代码 ,效果 如 图 1-31 所 示 。 


Hi Alice! 
Hi Bob! 
Name: Charlie Age: 32 


Process finished with exit code 0 


图 1-31 样 例 类 的 运行 结果 


1.6 本 章 小 结 


本 章 主 要 介绍 什么 是 Scala 以 及 Scala 编程 的 相关 知识 , 即 Scala 的 安装 、 基 础 语法 \ 数 
据 结 构 、 面 向 对 象 的 特性 以 及 模式 匹配 和 样 例 类 。 和 希望 读者 通过 本 章 的 学 习 , 可 以 掌握 
Scala 编程 的 方法 ,因为 学 好 Scala, 可 以 帮助 我 们 更 好 地 掌握 Spark 框架 。 
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1.7 课 后 习题 


一 、 填 空 题 

1. Scala 语言 的 特性 包含 ` 函 数 式 编程 的 、 \ 可 扩展 的 、 
2. 在 Scala 数据 类 型 层级 结构 的 底部 有 两 个 数据 类 型 ,分 别 是 和 

3. 在 Scala 中 ,声明 变量 的 关键 字 有 和 三 

4. 在 Scala 中 ,获取 元 组 中 的 值 是 通过 来 获取 的 。 

5. 在 Scala 中 ,模式 匹配 是 由 关键 字 和 组 成 的 。 

二 、 判 断 题 


1. 安装 Scala 之 前 必须 配置 JDK 。 

2. Scala 语言 是 一 种 面向 过 程 编 程 的 语言 。 

3. 在 Scala 中 ,使 用 关键 字 var 声明 的 变量 , 值 是 不 可 变 的 。 
4. 在 Scala 中 定义 变 长 数组 时 ,需要 导入 可 变数 组 包 。 

5. Scala 语言 和 Java 语言 一 样 ,都 有 静态 方法 或 静态 字段 。 


一 一 一 一 一 
一 二 一 ~ 一 


三 、 选 择 题 
1. 下 列 选 项 中 ,哪个 是 Scala 编译 后 文件 的 扩展 名 ? ( 有 
A. . class B. .bash C. .pyc | DA 
2. 下 列 方法 中 ,哪个 方法 可 以 正确 计算 数组 arr 的 长 度 ? ( ) 
A. count () B. take () C. tail () D. length () 
3. 下 列 关于 List 的 定义 ,哪个 是 错误 的 ? ( 。 ) 
A. val list = List(1,22,3) B. val list = List(“Hello”,”Scala”) 


C. val list : String = List(“A”,“B”)  D. val list = List[Int](1,2,3) 
四 、 编 程 题 


1. 编写 Scala 程序 ,实现 以 下 功能 : 

(1) 获取 列表 中 的 前 5 个 元 素 。 

(2) 判断 列表 中 是 否 包含 元 素 0。 

提示 : 假设 列表 是 var list 二 List(1,3,2,5,4,7,8,6,9,0) 

2. 编写 Scala 程序 ,计算 100 一 999 的 所 有 的 水 仙 花 数 。 

提示 : 这 里 水 仙 花 数 指 严格 意义 上 的 水 仙 花 数 , 即 若 一 个 数 满 足 这 个 数 等 于 它 的 百 位 
数 . 十 位 数 . 个 位 数 的 立方 和 ,那么 这 个 数 就 是 水 仙 花 数 。 
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学 习 目 标 
。 掌握 Spark 集群 的 搭建 和 配置 方法 。 
。 掌握 Spark HA 集群 的 搭建 和 配置 方法 。 


。 掌握 Spark 集群 架构 。 
。 理解 Spark 作业 提交 的 工作 原理 。 


Spark 于 2009 年 诞生 于 美国 加 州 大 学 伯克利 分 校 的 AMP 实验 室 , 它 是 一 个 可 应 用 于 
大 规模 数据 处 理 的 统一 分 析 引 擎 。Spark 不 仅 计算 速度 快 ,而 且 内 置 了 丰富 的 API, 使 得 用 
户 能 够 更 加 容易 地 编写 程序 。 接 下 来 ,本 章 将 从 Spark 的 发 展 说 起 ,针对 Spark 集群 部 署 、 
Spark 运行 架构 及 其 原理 进行 详细 讲解 。 


2.1 初 识 Spark 


2.1.1 Spark 概述 


Spark 在 2013 年 加 入 Apache 钱 化 器 项 目 ,之 后 发 展 迅 猛 ,并 于 2014 年 正式 成 为 
Apache 软件 基金 会 的 顶级 项 目 。Spark 从 最 初 研发 到 最 终 成 为 Apache 的 顶级 项 目 , 其 发 
展 的 兰 个 过 程 代用 于 5 年 时 间 。 


是 基于 内 存 计算 的 大 数据 并 行 计算 框架 ， edi he 在 Spark 这 
态 圈 中 包含 了 Spark SQL、Spark Streaming、GraphX、MLlib 等 组 件 ,这 些 组 件 可 以 非常 容 
易 地 把 各 种 处 理 流程 整合 在 一 起 ,而 这 样 的 整合 ,在 实际 数据 分 析 过 程 中 是 很 有 意义 的 。 不 
仅 如 此 ,Spark 的 这 种 特性 还 大 大 减轻 了 原先 需要 对 各 种 平台 分 别管 理 的 依赖 负担 。 下 面 ， 
通过 一 张 图 描述 Spark 的 生态 系统 .具体 如 图 2-1 所 示 。 

通过 图 2-1 可 以 看 出 , Spark 生态 系统 主要 包含 Spark Core、 Spark SQL、 Spark 
Streaming、MLlib .GraphX 以 及 独立 调度 器 ,下 面 对 上 述 组 件 进行 一 一 介绍 。 

(1) Spark Core: Spark 核心 组 件 , 它 实现 了 Spark 的 基本 功能 ,包含 任务 调度 .内存 管 
理 ,错误 恢 复 、 与 存储 系统 交互 等 模块 。Spark Core 中 还 包含 了 对 弹性 分 布 式 数据 集 
(Resilient Distributed Datasets, RDD) 的 API 定义 ,RDD 是 只 读 的 分 区 记录 的 集合 ,只 能 基 
于 在 稳定 物理 存储 中 的 数据 集 和 其 他 已 有 的 RDD 上 执行 确定 性 操作 来 创建 。 

(2) Spark SQL: 用 来 操作 结构 化 数据 的 核心 组 件 ,通过 Spark SQL 可 以 直接 查询 
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Spark SQL | | SDak MLlib GraphX 
结构 化 数据 | | 实时 计算 | | 机 器 学 习 库 图 计算 


Spark Core 


图 2-1 Spark 生态 系统 


Hive、HBase 等 多 种 外 部 数据 源 中 的 数据 。Spark SQL 的 重要 特点 是 能 够 统一 处 理 关 系 表 
和 RDD。 在 处 理 结构 化 数据 时 ,开发 人 员 无 须 编写 MapReduce 程序 ,直接 使 用 SQL 命令 
就 能 完成 更 加 复杂 的 数据 查询 操作 。 

(3) Spark Streaming: Spark 提供 的 流 式 计算 框 架 ,支持 高 否 吐 量 、 可 容错 处 理 的 实时 
流 式 数据 处 理 , 其 核心 原理 是 将 流 数 据 分 解 成 一 系列 短小 的 批 处 理 作 业 ,每 个 短小 的 批 处 理 
作业 都 可 以 使 用 Spark Core 进行 快速 处 理 。Spark Streaming 支持 多 种 数据 源 ,如 Kafka、 
Flume 以 及 TCP 套 接 字 等 。 

(4) MLlib: Spark 提供 的 关于 机 器 学 习 功 能 的 算法 程序 库 ,包括 分 类 、 回 归 、 聚 类 协同 
过 滤 算 法 等 ,还 提供 了 模型 评估 ,数据 导入 等 额外 的 功能 .开发 人 员 只 需 了 解 一 定 的 机 器 学 
习 算法 知识 就 能 进行 机 器 学 习 方面 的 开发 ,降低 了 学 习 成 本 。 

(5) GraphX: Spark 提供 的 分 布 式 图 处 理 框 架 , 拥 有 图 计算 和 图 挖掘 算法 的 API 接口 
以 及 丰富 的 功能 和 运算 符 , 极 大 地 方便 了 对 分 布 式 图 的 处 理 需 求 , 能 在 海量 数据 上 运行 复杂 
的 图 算法 。 

(6) 独立 调度 器 、 Yarn、Mesos: Spark 框架 可 以 高 效 地 在 一 个 到 数 千 个 节点 之 间 伸 缩 
计算 ,集群 管理 器 则 主要 负责 各 个 节点 的 资源 管理 工作 ,为 了 实现 这 样 的 要 求 ,同时 获得 最 
大 的 灵活 性 , Spark 支持 在 各 种 集群 管理 器 (Cluster Manager) 上 运行 , Hadoop Yarn、 
Apache Mesos 以 及 Spark 自 带 的 独立 调度 器 都 被 称 为 集群 管理 器 。 

Spark 生态 系统 各 个 组 件 关系 密切 ,并且 可 以 相互 调用 ,这 样 设计 具有 以 下 显著 优势 。 

(1) Spark 生态 系统 包含 的 所 有 程序 库 和 高 级 组 件 都 可 以 从 Spark 核心 引擎 的 改进 中 
获 益 。 

(2) 不 需要 运行 多 套 独立 的 软件 系统 ,能够 大 大 减少 运行 整个 系统 的 资源 代价 。 

(3) 能 够 无 颖 整合 各 个 系统 ,构建 不 同 处 理 模型 的 应 用 。 

综 上 所 述 ,Spark 框架 对 大 数据 的 支持 从 内 存 计算 、 实 时 处 理 到 交互 式 查 询 , 进 而 发 展 
到 图 计算 和 机 器 学 习 模 块 。 Spark 生态 系统 广泛 的 技术 面 ,一 方面 挑战 占据 大 数据 市 场 份 
额 最 大 的 Hadoop, 另 一 方面 又 随时 准备 迎接 后 起 之 秀 Flink、Kafka 等 计算 框架 的 挑战 ,从 
而 使 Spark 在 大 数据 领域 更 好 地 发 展 。 


2.1.2 Spark 的 特点 


Spark 计算 框架 在 处 理 数据 时 ,所 有 的 中 间 数 据 都 保存 在 内 存 中 。 正 是 由 于 Spark 充 
分 利用 内 存 对 数据 进行 计算 ,从 而 减少 磁盘 读 写 操作 ,提高 了 框架 计算 效率 。 同 时 Spark 还 
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兼容 HDFS、Hive, 可 以 很 好 地 与 Hadoop 系统 融合 ,从 而 弥补 MapReduce 高 延迟 的 性 能 缺 
点 。 所 以 说 ,Spark 是 一 个 更 加 快速 ,高效 的 大 数据 计算 平台 。 
Spark 具有 以 下 几 个 显著 的 特点 。 


1. 速度 快 


根据 官方 数据 统计 ,与 Hadoop 相 比 ,Spark 基于 内 存 的 运算 效率 要 快 100 倍 以 上 ,基于 
硬盘 的 运算 效率 也 要 快 10 倍 以 上 。Spark 实现 了 高 效 的 DAG 执行 引擎 ,能 够 通过 内 存 计 
算 高 效 地 处 理 数据 流 。 


2. 易 用 性 


Spark 编程 支持 Java、Python、Scala 及 R 语言 ,并 且 还 拥有 超过 80 种 高 级 算法 , 除 此 之 
外 ,Spark 还 支持 交互 式 的 Shell 操作 ,开发 人 员 可 以 方便 地 在 Shell 客户 端 中 使 用 Spark 集 
群 解决 问题 。 


3. 通用 性 


Spark 提供 了 统一 的 解决 方案 ,适用 于 批 处 理 、 交 互 式 查询 (Spark SQL) ,实时 流 处 理 
(Spark Streaming)、 机 器 学 习 (Spark MLlib) 和 图 计算 (GraphX) ,它们 可 以 在 同一 个 应 用 程 
序 中 无 颖 地 结合 使 用 ,大 大 减少 大 数据 开发 和 维护 的 人 力 成 本 和 部 署 平 台 的 物力 成 本 。 


4. 兼容 性 


Spark 可 以 运行 在 Hadoop 模式 .Mesos 模式 .Standalone 独立 模式 或 Cloud 中 ,并 且 还 
可 以 访问 各 种 数据 源 , 包 括 本 地 文件 系统 .HDFS、Cassandra、HBase 和 Hive 等 。 


2.1.3 ”Spark 应 用 场景 


在 数据 科学 应 用 中 ,数据 工程 师 可 以 利用 Spark 进行 数据 分 析 与 建 模 , 由 于 Spark 具有 
良好 的 易 用 性 ,数据 工程 师 只 需要 具备 一 定 的 SQL 语言 基础 ,统计 学 、 机 器 学 习 等 方面 的 经 
验 , 以 及 使 用 Python 、Matlab 或 者 R 语言 的 基础 编程 能 力 .就 可 以 使 用 Spark 进行 上 述 
王 作 。 

在 数据 处 理应 用 中 ,大 数据 工程 师 将 Spark 技术 应 用 于 广告 报表、 推荐 系统 等 业务 中 ， 
在 广告 业务 中 ,利用 Spark 系统 进行 应 用 分 析 、 效 果 分 析 、 定 向 优化 等 业务 ,在 推荐 系统 业务 
中 ,利用 Spark 内 置 的 机 器 学 习 算 法 训练 模型 数据 ,进行 个 性 化 推荐 及 热点 点 击 分 析 等 
业务 。 

Spark 拥有 完整 而 强大 的 技术 栈 ,如 今 已 吸引 了 国内 外 各 大 公司 的 研发 与 使 用 ,淘宝 技 
术 团 队 使 用 Spark 来 解决 多 次 迭代 的 机 器 学 习 算法 、 高 计算 复杂 度 的 算法 等 问题 ,应 用 于 商 
品 推荐 ,社区 发 现 等 功能 。 腾 讯 大 数据 精准 推荐 借助 Spark 快速 迭代 的 优势 ,实现 了 在 “ 数 
据 实时 采集 算法 实时 训练 .系统 实时 预测 ”的 全 流程 实时 并 行 高 维 算法 ,最 终 成 功 应 用 于 广 
点 通 投放 系统 上 。 优 酷 土豆 则 将 Spark 应 用 于 视频 推荐 (图 计算 ) .广告 等 业务 的 研发 与 拓 
展 , 相 信 在 将 来 ,Spark 会 在 更 多 的 应 用 场景 中 发 挥 重 要 作用 。 
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2.1.4 Spark 与 Hadoop 对 比 


Hadoop 与 Spark 都 是 大 数据 计算 框架 ,但 是 两 者 各 有 自己 的 优势 ,Spark 与 Hadoop 
的 区 别 主要 有 以 下 几 点 。 


1. 编程 方式 


Hadoop 的 MapReduce 在 计算 数据 时 ,计算 过 程 必 须要 转化 为 Map 和 Reduce 两 个 过 
程 ,从 而 难以 描述 复杂 的 数据 处 理 过 程 ;而 Spark 的 计算 模型 不 局 限于 Map 和 Reduce 操 
作 , 还 提供 了 多 种 数据 集 的 操作 类 型 ,编程 模型 比 MapReduce 更 加 灵活 。 


2. 数据 存储 


Hadoop 的 MapReduce 进行 计算 时 ,每 次 产生 的 中 间 结 果 都 是 存储 在 本 地 磁盘 中 ;而 
Spark 在 计算 时 产生 的 中 间 结 果 存储 在 内 存 中 。 


3. 数据 处 理 


Hadoop 在 每 次 执行 数据 处 理 时 ,都 需要 从 磁盘 中 加 载 数据 ,导致 磁盘 的 IO 开销 较 
大 ;而 Spark 在 执行 数据 处 理 时 ,只 需要 将 数据 加 载 到 内 存 中 ,之 后 直接 在 内 存 中 加 载 中 间 
结果 数据 集 即 可 ,减少 了 磁盘 的 IO 开销 。 


4. 数据 容错 


MapReduce 计算 的 中 间 结 果 数据 保存 在 磁盘 中 ,并 且 Hadoop 框架 底层 实现 了 备份 机 
制 , 从 而 保证 了 数据 容错 ;同样 Spark RDD 实现 了 基于 Lineage 的 容错 机 制 和 设置 检查 点 
的 容错 机 制 ,弥补 了 数据 在 内 存 处 理 时 断 电 丢失 的 问题 。 关 于 Spark 容错 机 制 将 会 在 第 3 
章 Spark RDD 弹性 分 布 式 数据 集中 详细 讲解 。 

在 Spark 与 Hadoop 的 性 能 对 比 中 ,较为 明显 的 缺陷 是 Hadoop 中 的 MapReduce 计算 
延迟 较 高 ,无 法 胜任 当下 爆发 式 的 数据 增长 所 要 求 的 实时 、 快 速 计算 的 需求 。 接 下 来 ,通过 
图 2-2 来 详细 讲解 这 一 原因 。 


人 和 一 一 -ini BB 一 一 non 全 
执行 计算 R= | 
Ns 


文件 存储 系统 本 地 磁盘 文件 存储 系统 

Hadoop MapReduce 执行 流程 
> 读 取 数 据 7 读 取 数 据 A _/ 
SS 四 加 EDs 
文件 存储 系统 Spark 执行 流程 文件 存储 系统 


图 2-2 Hadoop 与 Spark 执行 流程 
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从 图 2-2 可 以 看 出 ,使 用 Hadoop MapReduce 进行 计算 时 ,每 次 计算 产生 的 中 间 结 果 都 
需要 从 磁盘 中 读 取 并 写 入 ,大 大 增加 了 磁盘 的 I/O 开销 ,而 使 用 Spark 进行 计算 时 ,需要 先 
将 磁盘 中 的 数据 读 取 到 内 存 中 ,产生 的 数据 不 再 写 人 磁盘 ,直接 在 内 存 中 迭代 处 理 , 这 样 就 
避免 了 从 磁盘 中 频繁 读 取 数据 造成 的 不 必要 开销 。 通 过 官方 计算 测试 , Hadoop 与 Spark 
执行 逻辑 回归 所 需 的 时 间 对 比 ,如 图 2-3 所 示 。 
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图 2-3 Hadoop 与 Spark 执行 逻辑 回归 时 间 对 比 


0s 


从 图 2-3 可 以 看 出 ,Hadoop 与 Spark 执行 所 需 时 间 相 差 超过 100 倍 。 
2.2 搭建 Spark 开发 环境 


搭建 Spark 环境 是 开展 Spark 编程 的 基础 。 在 深入 学 习 Spark 编程 之 前 需要 先 搭建 
Spark 开发 环境 , 接 下 来 ,本 节 讲 解 Spark 开发 环境 的 搭建 。 


2.2.1 环境 准备 


由 于 Spark 仅仅 是 一 种 计算 框架 ,不 负责 数据 的 存储 和 管理 ,因此 ,通常 都 会 将 Spark 
和 Hadoop 进行 统一 部 署 . 由 Hadoop 中 的 HDFS、HBase 等 组 件 负责 数据 的 存储 管理 ， 
Spark 负责 数据 计算 。 

安装 Spark 集群 之 前 ,需要 安装 Hadoop 环境 ,本 教材 采用 如 下 配置 环境 。 

。 Linux 系统 : CentOS_6.7 版 本 ; 

。 Hadoop: 2.7.4 版 本 ; 

。 JDK: 1.8 版 本 ; 

。 Spark: 2. 3.2 版 本 。 

关于 Hadoop 开发 环境 的 安装 不 是 本 教材 的 重点 ,如 果 有 读者 未 安装 ,请 参考 《 Hadoop 
大 数据 技术 原理 与 应 用 》(ISBN : 978-7-302-52440-3) 一 书 完成 Hadoop 环境 的 安装 。 


2.2.2 Spark 的 部 署 方式 


Spark 部 署 模式 分 为 Local 模式 (本 地 单机 模式 ) 和 集群 模式 ,在 Local 模式 下 ,常用 于 
本 地 开发 程序 与 测试 ,而 集群 模式 又 分 为 Standalone 模式 (集群 单机 模式 )、Yarn 模式 和 
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Mesos 模式 ,关于 这 3 种 集群 模式 的 具体 介绍 如 下 。 
1. Standalone 模式 


Standalone 模式 被 称 为 集群 单机 模式 。Spark 框架 与 Hadoop1. 0 版 本 框架 类 似 ,本 身 
都 自 带 了 完整 的 资源 调度 管理 服务 ,可 以 独立 部 署 到 一 个 集群 中 ,无 须 依赖 任何 其 他 的 资源 
管理 系统 ,在 该 模式 下 ,Spark 集群 架构 为 主 从 模式 , 即 一 台 Master 节点 与 多 台 Slave 节点 ， 
Slave 节点 启动 的 进程 名 称 为 Worker, 此 时 集群 会 存在 单 点 故障 问题 ,后 续 将 在 Spark HA 
集群 部 署 小 节 讲解 利用 Zookeeper 解决 单 点 问题 的 方案 。 


2. Yarn 模式 


Yarn 模式 被 称 为 Spark on Yarn 模式 , 即 把 Spark 作为 一 个 客户 端 ,将 作业 提交 给 
Yarn 服务 ,由 于 在 生产 环境 中 ,很 多 时 候 都 要 与 Hadoop 使 用 同一 个 集群 ,因此 采用 Yarn 
来 管理 资源 调度 ,可 以 有 效 提高 资源 利用 率 ,Yarn 模式 又 分 为 Yarn Cluster 模式 和 Yarn 
Client 模式 ,具体 介绍 如 下 。 

(1) Yarn Cluster: 用 于 生产 环境 ,所 有 的 资源 调度 和 计算 都 在 集群 上 运行 。 

(2) Yarn Client: 用 于 交互 .调试 环境 。 


3. Mesos 模式 


Mesos 模式 被 称 为 Spark on Mesos 模式 ,Mesos 与 Yarn 同样 是 一 款 资 源 调 度 管 理 系 
统 , 可 以 为 Spark 提供 服务 ,由 于 Spark 与 Mesos 存在 密切 的 关系 ,因此 在 设计 Spark 框架 
时 充分 考虑 到 了 对 Mesos 的 集成 ,但 如 果 同 时 运行 Hadoop 和 Spark, 从 兼容 性 的 角度 来 
看 ,Spark on Yarn 是 更 好 的 选择 。 

上 述 3 种 分 布 式 部 署 方案 各 有 利 棘 ,通常 需要 根据 实际 情况 决定 采用 哪 种 方案 。 由 于 
学 习 阶 段 是 在 虚拟 机 环境 下 模拟 小 规模 集群 ,因此 可 以 考虑 选择 Standalone 模式 。 


2.2.3 Spark 集群 安装 部 署 


本 书 将 以 图 2-4 所 示 的 Spark 集群 为 例 , 阐 述 Standalone 模式 下 ,Spark 集群 的 安装 与 
配置 方式 。 
从 图 2-4 可 以 看 出 ,要 规划 的 Spark 集群 包含 一 台 Master 节点 和 两 台 Slave 节点 。 其 
hadoop01(Master) 中 ,主机 名 hadoop01 是 Master 节点 , hadoop02 和 
hadoop03 是 Slave 节点 。 
接 下 来 ,分 步骤 演示 Spark 集群 的 安装 与 配置 ,具体 
如 下 。 


1. 下 载 Spark 安装 包 


Spark 是 Apache 基金 会 面向 全 球 开源 的 产品 之 一 ， 

任何 用 户 都 可 以 从 Apache Spark 官网 https://spark. 

hadoop02(Slave) hadoop03(Slave) apache. org/downloads. html 下 载 使 用 。 本 书 截稿 时 ， 
图 2-4 Spark 集群 Spark 最 新 且 稳 定 的 版 本 是 2. 3. 2, 所 以 本 书 将 以 
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Spark2. 3. 2 版 本 为 例 介绍 Spark 的 安装 。Spark 安装 包 下 载 页 面 如 图 2-5 所 示 。 


从 Downloads1ApachesF x 
€ 3 © |@ Ts | sparkapache.org/downloadshtml 


APACHE 


SPQIK nines ere 
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Spatk 232 relaased (sep 24, 2018] 
1 Choose 3 Spark release (2 32 (Sep 24 2018) » Spark+A| Summit (October 2-4th, 
2 choose a package Vpe: [PrEDUR Tor RPhe agoo 77 ra er — 2018, London) agenda posted Cl 24 


208) 


Spark 222 roloocod (Ju102, 2019) 
4 Vorly th roloase upng the 2.3.2 gignatures and chocksums and propect eleaso KEYS Spark 2.1.3 released un 29 2015) 
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but wn Scala 2 10 suppert 
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图 2-5 Spark 安装 包 下 载 


进入 Spark 下 载 页 面 , 选 择 基 于 Pre-built for Apache Hadoop 2.7 and later 的 Spark 
2. 3.2 版 本 ,这 样 做 的 目的 是 保证 Spark 版 本 与 本 书 安装 的 Hadoop 版 本 对 应 。 


2. 解压 Spark 安装 包 


首先 将 下 载 的 spark-2. 3. 2-bin-hadoop2. 7. tgz 安装 包 上 传 到 主 节 点 hadoop01 的 
/export/software 目录 下 ,然后 解压 到 /export/servers/ 目 录 ,解压 命令 如 下 。 


S$tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/ 


为 了 便于 后 面 的 操作 ,使 用 mv 命令 将 Spark 的 目录 重 命名 为 spark ,命令 如 下 。 


Smv spark-2.3.2-bin-hadoop2.7/ spark 


3. 修改 配置 文件 


(1) 进入 spark/conf 目录 修改 Spark 的 配置 文件 spark-env. sh, 将 spark-env. sh. 
template 配置 模板 文件 复制 一 份 并 命名 为 spark-env. sh. 具 体 命令 如 下 。 


$cp spark-env.sh.template spark-env.sh 


修改 spark-env. sh 文件 ,在 该 文件 中 添加 以 下 内 容 : 


# 配 置 java 环境 变量 

‘export JAVA HOME=/export/servers/jdk 
# 指 定 Master 的 IP 

export SPARK MASTER HOST=hadoop01 

# 指 定 Master 的 端口 

export SPARK MASTER PORT=7077 


可 组 本 
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上 述 添加 的 配置 参数 主要 包括 JDK 环境 变量 .Master 节点 的 IP 地 址 和 Master 端口 


号 ,由 于 当前 节点 服务 器 已 经 在 /etc/hosts 文件 配置 了 IP 和 主机 名 的 映射 关系 ,因此 可 以 
直接 填写 主机 名 。 


(2) 复制 slaves. template 文件 ,并重 命名 为 slaves, 具 体 命 令 如 下 。 


$cp slaves.template slaves 


(3) 通过 “vi slaves” 命 令 编 辑 slaves 配置 文件 ,主要 是 指定 Spark 集群 中 的 从 节点 IP， 


由 于 在 hosts 文件 中 已 经 配置 了 IP 和 主机 名 的 映射 关系 ,因此 直接 使 用 主机 名 代替 IP, 添 
加 内 容 如 下 。 


hadoop02 

hadoop03 

上 述 添加 的 内 容 ,代表 集 群 中 的 从 节点 为 hadoop02 和 hadoop03。 
4. 分 发 文件 


修改 完成 配置 文件 后 ,将 spark 目录 分 发 至 hadoop02 和 hadoop03 节点 ,具体 命令 如 下 。 


$scp -r /export/servers/spark/ hadoop02:/export/servers/ 
$scp -r /export/servers/spark/ hadoop03:/export/servers/ 


至 此 ,Spark 集群 配置 完成 了 。 
5. 启动 Spark 集群 


Spark 集群 的 启动 方式 和 启动 Hadoop 集群 方式 类 似 , 直 接 使 用 spark/sbin/start-all. sh 脚 
本 即 可 ,在 spark 根 目 录 下 执行 下 列 命令 : 


$sbin/start-all.sh 


执行 命令 后 ,如 果 没 有 提示 异常 错误 信息 则 表示 启动 成 功 ,如 图 2-6 所 示 。 
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图 2-6 ”启动 Spark 集群 
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启动 成 功 后 ,使 用 jps 命令 查看 进程 ,如 图 2-7 所 示 。 


全 hadoop02-192168.121 EPE 全 hadoop03-192.168.12 >. 
Ble Edt View Options Transfer 
Seript Took Window Help 


Enter host <Alt+R> FP 


| hado. | Phado.. | Thado— x 1 » 


rootehadoopo3 ~]# Jps 
1 oe 


1807 
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> hado- x |@hado- |@hado. 4 » 
FooEBRagqoopOT spark]r Jps ~ 
2452 Jps 
2391 Master 
[roorehadoopol spark]# 国 


hado- |whado- x Ohado 4 
TooEghad50p02 ~]# jps = 


(2) (3) 
图 2-7 查看 集群 进程 
从 图 2-7 可 以 看 出 ,当前 主机 hadoop01 启动 了 Master 进程 ,hadoop02 和 hadoop03 启 


动 了 Worker 进程 ,访问 Spark 管理 界面 https://hadoop01:8080 来 查看 集群 状态 ( 主 节 
点 ) ,Spark 集群 管理 界面 如 图 2-8 所 示 。 


© RP | hadoop01.8080 


SB ,,, Spark Master at spark://hadoop01:7077 


URL: sparkc/hadoop01 7077 
REST URL: spark /madoopO1:6065 (eetor modo) 
Allve Workers: 2 

Cores in use: 2 Total 0 Used 
Memory in use: 36 G8 Total 00 B Used 
Applications: 0 Running 0 Completed 

Drivers: 0 Running. 0 Completed 

Status: ALVE 


Workers (2) 
Workeriq Aqaress, Memory 


‘Worker-20181024222310-192.168.121.135 .60777 192 168.121.135:60777 18480 MB (0.0 B Used) 
Voner20t00242223TL192 166 121 196-37007 [eo ten tar to6 37097 E 000 0 MB (OOB Uscd) 


Running Applications (0) 


Application ID Name 


Completed Applications (0) 
Application ID Name 


图 2-8 Spark 集群 管理 界面 


至 此 ,Spark 集群 安装 完毕 ,为 了 在 任何 路 径 下 都 可 以 执行 Spark 脚本 程序 ,可 以 通过 
执行 “vi /etc/profile” 命 令 编辑 profile 文件 ,并 在 文件 中 配置 Spark 环境 变量 即 可 ,这 里 就 
不 再 演示 。 


2.2.4 Spark HA 集群 部 署 
在 上 一 节 的 分 析 讲 到 ,Spark Standalone 集群 是 主 从 架构 的 集群 模式 ,因此 同样 存在 单 
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点 故障 问题 ,解决 这 个 问题 就 需要 用 到 Zookeeper 服务 .其 基本 原理 是 将 Standalone 集群 连 
接 到 同一 个 Zookeeper 实例 并 启动 多 个 Master 节点 ,利用 Zookeeper 提供 的 选举 和 状态 保 
存 功 能 ,可 以 使 一 台 Master 节点 被 选举 ,另外 一 台 Master 节点 处 于 Standby 状态 。 当 活跃 
的 Master 发 生 故障 时 ,Standby 状态 的 Master 就 会 被 激活 ,然后 恢复 集群 调度 ,整个 恢复 
过 程 可 能 需要 1 一 2 分 钟 。 

Spark HA 方案 配置 简单 ,首先 启动 一 个 Zookeeper 集群 ,然后 在 不 同 节点 上 启动 
Master 服务 ,需要 注意 的 是 ,启动 的 节点 必须 与 Zookeeper 配置 时 保持 相同 ,如 果 有 读者 未 
安装 Zookeeper 集群 ,请 参考 ( Hadoop 大 数据 技术 原理 与 应 用 ) 一 书 完成 Zookeeper 集群 环 
境 的 安装 及 配置 ,下 面 仅 提供 当前 虚拟 机 中 修改 后 的 Zookeeper 核心 配置 文件 ,如 文件 2-1 
所 示 。 

文件 2-1 zoo. cfg 


tickTime=2000 

initLimit=10 

syncLimit=5 
dataDir=/export/data/zookeeper/zkdata 
clientPort=2181 
server.1=hadoop01:2888:3888 
Server.2=hadoop02:2888:3888 
Server.3=hadoop03:2888:3888 


onur 


接 下 来 ,分 步骤 讲解 配置 Spark HA 集群 的 操作 方式 。 
1. 修改 spark-env.sh 配置 文件 


在 spark-env. sh 文件 中 ,将 指定 Master 节点 的 配置 参数 注释 , 即 在 SPARK_MASTER 
_HOST 配置 参数 前 加 # ,表示 注释 当前 行 ,添加 SPARK_DAEMON_JAVA_OPTS 配置 参 
数 , 具 体内 容 如 下 。 


# 指 定 Master 的 IP 

#export SPARK MASTER HOST=hadoop01 

# 指 定 Master 的 端口 

export SPARK MASTER_PORT=7077 

export SPARK DAEMON JAVA OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop01:2181,hadoop02:2181,hadoop03:2181 
-Dspark.deploy.zookeeper.dir=/spark" 


关于 上 述 参数 的 具体 说 明 如 下 所 示 : 

(1) spark. deploy. recoveryMode: 设置 Zookeeper 去 启动 备用 Master 模式 。 

(2) spark. deploy. zookeeper. url: 指定 ZooKeeper 的 Server 地 址 。 

(3) spark. deploy. zookeeper. dir: 保存 集群 元 数据 信息 的 文件 和 目录 。 

配置 完成 后 ,将 spark-env. sh 分 发 至 hadoop02 和 hadoop03 节点 上 ,保证 配置 文件 统 
一 ,命令 如 下 。 


$scp spark-env.sh hadoop02:/export/servers/spark/conf 
$scp spark-env.sh hadoop03:/export/servers/spark/conf 
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2. 启动 Spark HA 集群 


在 普通 模式 下 启动 Spark 集群 ,只 需要 通过 /spark/sbin/start-all. sh 一 键 启 动 脚 本 即 
可 。 然 而 ,在 高 可 用 模式 下 启动 Spark 集群 ,首先 需要 启动 Zookeeper 集群 ,然后 在 任意 一 
台 主 节点 上 执行 start-all. sh 命令 启动 Spark 集群 ,最 后 在 另外 一 台 主 节点 上 单独 启动 
Master 服务 。 具 体 步 又 如 下 。 

(1) 启动 Zookeeper 服务 。 

依次 在 3 台 节 点 上 启动 Zookeeper, 命 令 如 下 。 


$zkServer.sh start 


(2) 启动 Spark 集群 。 
在 hadoop01 主 节点 使 用 一 键 启动 脚本 启动 ,命令 如 下 。 


$ /export/servers/spark/sbin/start-all.sh 


(3) 单独 启动 Master 节点 。 
在 hadoop02 节点 上 再 次 启动 Master 服务 ,命令 如 下 。 


$ /export/servers/spark/sbin/start-master.sh 


启动 成 功 后 ,通过 浏览 器 访问 https://hadoop02:8080, 查 看 备用 Master 节点 的 状态 ， 
如 图 2-9 所 示 。 


kl RY DY Spark Mastor at spare/ Xx 
© |@ FR | hadoop0z8080 


Spo 232 Spark Master at spark://hadoop02:7077 


URL: spark//hadoop02.7077 
REST URL: sparic//nadoopOZ2 6066 (cluster moce) 
Alive Workers: 0 

Cores in use: 0 Tolal 0 Used 

Memory in use: 0.0B Total, 0.06 Used 
Applications: 0 Running, 0 Completed 


Drivers; ) Runring 9 Completed 
‘Workers (0) 

Worker ld 

Running Applications (0) 

Application ID Name Cores MemoryperExecutor 


Completed Applications (0) 
Application ID Name Cores MemoryperExecutor 


图 2-9 启动 Spark HA 集群 
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通过 图 2-9 可 以 看 出 ,hadoop02 节点 的 状态 为 STANDBY ,说 明 Spark HA 配置 完毕 。 
3. 测试 Spark HA 集群 


Spark HA 集群 启动 完毕 后 ,为 了 演示 是 否 解决 了 单 点 故障 问题 ,可 以 关闭 在 hadoop01 
节点 中 的 Master 进程 ,用 来 模拟 在 生产 环境 中 hadoop01 突然 宕 机 ,命令 如 下 所 示 。 


$ /export/servers/spark/sbin/stop-master.sh 


执行 命令 后 ,通过 浏览 器 查看 http://hadoop01:8080, 发 现 已 经 无 法 通过 hadoop01 节 
点 访问 Spark 集群 管理 界面 。 经 过 1 一 2 分 钟 后 ,刷新 http://hadoop02:8080 页 面 ,可 以 发 
现 hadoop02 节点 中 的 Status 值 更 改 为 ALIVE,Spark 集群 恢复 正常 ,说 明 Spark HA 配置 
有 效 解 决 了 单 点 故障 问题 ,具体 如 图 2-10 所 示 。 


€3© @ 不 安全 | hadoop028080/#completed-app 


3556 不 2 Spark Master at spark://hadoop02:7077 


URL: spark//hadoop02:7077 

REST URL: spanclmadoopO2-6066 (ciuster moce) 
Alive Workers: 2 

Cores in use: 2 Tolal 0 Used 
Memory in use: 3.6 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Complcted 

Drivers: 0 Running. 0 Completed 


Workers (2) 

Worker ld 
worker20181024235956-192.168.121.135.57702 192 168.121.135-57702 
192 168 .121.136:48997 


[aaamss | sate 区 Memory 


1(0Used) 。 18480MB (00B Used) 
1(0Used) 。 1846.0MB (00B Used) 


| worker20101024235956-192.160.121.136-40997 


Running Applications (0) 


[ee Meme 


Completed Applications (0) 
| Application ID Name 


图 2-10 验证 Spark HA 集群 


| 省 多 学 一 招 : 脚本 启动 Zookeeper 集群 


在 集群 中 启动 Zookeeper 服务 时 ,需要 依次 在 3 台 服 务 器 上 执行 启动 命令 ,然而 在 实际 
工作 应 用 中 ,集群 数量 并 非 3 台 , 当 遇 到 数 十 台 甚 至 更 多 的 服务 器 时 ,就 不 得 不 编写 脚本 来 
启动 服务 了 ,编写 脚本 的 语言 有 多 种 ,这 里 采用 Shell 语言 开发 一 键 启动 Zookeeper 服务 脚 
本 ,使 用 vi 创建 start_zk. sh 文件 ,如 文件 2-2 所 示 。 

文件 2-2 start_zk. sh 


#1! /bin/sh 
for host in hadoop01 hadoop02 hadoop03 


第 2 章 Spark 基 础 


ssh $host "source /etc/profile;zkServer.sh start" 
echo "$host zk is running" 
done 


执行 该 文件 只 需要 输入 sh start_zk. sh 即 可 启动 集群 中 的 Zookeeper 服务 。 


2.3 Spark 运行 架构 与 原理 


2.3.1 基本 概念 


在 学 习 Spark 运行 架构 与 工作 原理 之 前 ,首先 需要 了 解 几 个 重要 的 概念 和 术语 。 

(1) Application (应 用 ): Spark 上 运行 的 应 用 。Application 中 包含 了 一 个 驱动 器 
(Driver) 进 程 和 集群 上 的 多 个 执行 器 (Executor) 进 程 。 

(2) DriverProgram( 驱 动 器 ) : 运行 main() 方 法 并 创建 SparkContext 的 进程 。 

(3) ClusterManager( 集 群 管理 器 ) : 用 于 在 集群 上 申请 资源 的 外 部 服务 (如 独立 部 署 的 
集群 管理 器 .Mesos 或 者 Yarn) 。 

(4) WorkerNode( 工 作 节点 ): 集群 上 运行 应 用 程序 代码 的 任意 一 个 节点 。 

(5) Executor( 执 行 器 ) : 在 集群 工作 节点 上 为 某 个 应 用 启动 的 工作 进程 ,该 进程 负责 运 
行 计算 任务 ,并 为 应 用 程序 存储 数据 。 

(6) Task( 任 务 ): 执行 器 的 工作 单元 。 

(7) Job( 作 业 ): 一 个 并 行 计算 作业 ,由 一 组 任务 (Task) 组 成 ,并 由 Spark 的 行动 
(Action) 算 子 ( 如 save、collect) 触 发 启动 。 

(8) Stage( 阶 段 ) : 每 个 Job 可 以 划分 为 更 小 的 Task 集合 ,每 组 任务 被 称 为 Stage。 


2.3.2 Spark 集群 运行 架构 


Spark 是 基于 内 存 计算 的 大 数据 并 行 计算 框架 , 比 MapReduce 计算 框架 具有 更 高 的 实 
时 性 ,同时 具有 高 效 容错 性 和 可 伸缩 性 ,在 学 习 Spark 操作 之 前 ,首先 介绍 Spark 运行 架构 ， 
如 图 2-11 所 示 。 


Worker Node 


Executor | Cache 


Driver Program 
Cluster Manager 
J | Worker Node 


Executor | Cache 


[sx | [rsx | 


图 2-11 Spark 运行 架构 
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在 图 2-11 中 ,Spark 应 用 在 集群 上 运行 时 ,包括 了 多 个 独立 的 进程 ,这 些 进程 之 间 通 过 
驱动 程序 (Driver Program) 中 的 SparkContext 对 象 进行 协调 ,SparkContext 对 象 能 够 与 多 
种 集群 资源 管理 器 (Cluster Manager) 通 信 ,一旦 与 集群 资源 管理 器 连接 ,Spark 会 为 该 应 用 
在 各 个 集群 节点 上 申请 执行 器 (Executor) ,用 于 执行 计算 任务 和 存储 数据 。Spark 将 应 用 
程序 代码 发 送 给 所 申请 到 的 执行 器 ,SparkContext 对 象 将 分 割 出 的 任务 (Task) 发 送 给 各 个 
执行 器 去 运行 。 

需要 注意 的 是 ,每 个 Spark 应 用 程序 都 有 其 对 应 的 多 个 执行 器 进程 。 执 行 器 进程 在 整 
个 应 用 程序 生命 周期 内 ,都 保持 运行 状态 ,并 以 多 线程 方式 执行 任务 。 这 样 做 的 好 处 是 , 执 
行 器 进程 可 以 隔离 每 个 Spark 应 用 。 从 调度 角度 来 看 ,每 个 驱动 器 可 以 独立 调度 本 应 用 程 
序 的 内 部 任务 。 从 执行 器 角度 来 看 ,不 同 Spark 应 用 对 应 的 任务 将 会 在 不 同 的 JVM 中 运 
行 。 然 而 这 样 的 架构 也 有 缺点 ,多 个 Spark 应 用 程序 之 间 无 法 共享 数据 ,除非 把 数据 写 到 外 
部 存储 结构 中 。 

Spark 对 底层 的 集群 管理 器 一 无 所 知 ,只 要 Spark 能 够 申请 到 执行 器 进程 ,能 与 之 通信 
即 可 。 这 种 实现 方式 可 以 使 Spark 比较 容易 地 在 多 种 集群 管理 器 上 运行 ,如 Mesos、Yarn。 

驱动 器 程序 在 整个 生命 周期 内 必须 监听 并 接受 其 对 应 的 各 个 执行 器 的 连接 请 求 , 因 此 ， 
驱动 器 程序 必须 能 够 被 所 有 Worker 节点 访问 到 。 

因为 集群 上 的 任务 是 由 驱动 器 来 调度 的 ,所 以 驱动 器 应 该 和 Worker 节点 距离 近 一 些 ， 
最 好 在 同一 个 本 地 局 域 网 中 ,如 果 需 要 远程 对 集群 发 起 请 求 ,最 好 还 是 在 驱动 器 节点 上 启动 
RPC 服务 响应 这 些 远程 请 求 , 同 时 把 驱动 器 本 身 放 在 离 集群 Worker 节点 比较 近 的 机 器 。 


2.3.3 Spark 运行 基本 流程 


通过 上 一 节 了 解 到 ,Spark 运行 架构 主要 由 SparkContext、Cluster Manager 和 Worker 
组 成 ,其 中 Cluster Manager 负责 整个 集群 的 统一 资源 管理 ,Worker 节点 中 的 Executor 是 
应 用 执行 的 主要 进程 ,内 部 含有 多 个 Task 线程 以 及 内 存 空间 ,下 面 通过 图 2-12 深入 了 解 
Spark 运行 的 基本 流程 。 

(1) 当 一 个 Spark 应 用 被 提交 时 ,根据 提交 参数 在 相应 位 置 创建 Driver 进程 ,Driver 进 
程 根据 配置 参数 信息 初始 化 SparkContext 对 象 . 即 Spark 运行 环境 ,由 SparkContext 负责 
和 Cluster Manager 的 通信 以 及 资源 的 申请 、 任 务 的 分 配 和 监控 等 。SparkContext 启动 后 ， 
创建 DAG Scheduler( 将 DAG 图 分 解 成 Stage) 和 Task Scheduler( 提 交 和 监控 Task) 两 个 
调度 模块 。 

(2) Driver 进程 根据 配置 参数 向 Cluster Manager 申请 资源 (主要 是 用 来 执行 的 
Executor) ,Cluster Manager 接收 到 应 用 (Application) 的 注册 请 求 后 ,会 使 用 自己 的 资源 调 
度 算法 ,在 Spark 集群 的 Worker 节点 上 ,通知 Worker 为 应 用 启动 多 个 Executor。 

(3) Executor 创建 后 ,会 向 Cluster Manager 进行 资源 及 状态 的 反馈 ,便于 Cluster 
Manager 对 Executor 进行 状态 监控 ,如 果 监 控 到 Executor 失败 , 则 会 立刻 重新 创建 。 

(4) Executor 会 向 SparkContext 反 向 注册 申请 Task。 

(5) Task Scheduler 将 Task 发 送 给 Worker 进程 中 的 Executor 运行 并 提供 应 用 程序 
代码 。 

(6) 当 程序 执行 完毕 后 写 人 数据 ,Driver 向 Cluster Manager 注销 申请 的 资源 。 
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1. 注 册 并 申请 资源 


RDD Obi Cluster Manager 
2 分 配 并 监控 资源 使 用 情况 
构建 DAG 图 


DAG 图 


DAG Scheduler 


将 DAG 图 分 解 成 stage 


下 


Task Scheduler 
| 。 提交 和 监控 Task | 资源 节点 汇报 资源 使 用 情况 


Worker Node 


4. Executor 反 向 注册 
图 2-12 ”Spark 运行 基本 流程 图 


2.4 体验 第 一 个 Spark 程序 


Spark 集群 已 经 部 署 完 毕 , 接 下 来 使 用 Spark 官方 示例 SparkPi 体验 Spark 集群 提交 任 


务 的 流程 。 首 先进 入 spark 目录 ,执行 命令 如 下 。 


秒 后 


bin/spark- submit \ 

--class org.apache .spark.examples .SparkPi \ 
--master spark://hadoop01:7077 \ 
--executor-memory 16G \ 
--total-executor-cores 1 \ 
examples/jars/spark-examples 2.11-2.3.2.jar \ 
10 


上 述 命 令 参数 表示 含义 如 下 。 

(1) 一 master spark://hadoop01: 7077: 指定 Master 的 地 址 是 hadoop01 节点 ; 

(2) 一 executor-memory 1G: 指定 每 个 executor 的 可 用 内 存 为 1GB; 

(3) 一 total-executor-cores 1: 指定 每 个 executor 使 用 的 CPU 核心 数 为 1 个 。 

按 Enter 键 提 交 Spark 作业 ,观察 Spark 集群 管理 界面 ,如 图 2-13 所 示 。 

在 图 2-13 中 ,Running Applications 列表 表示 当前 Spark 集群 正在 计算 的 作业 ,执行 几 
,刷新 界面 ,如 图 2-14 所 示 。 

从 图 2-14 可 以 看 出 ,在 Completed Applications 表单 下 ,当前 应 用 执行 完毕 ,返回 控制 


台 查 看 输出 信息 ,如 图 2-15 所 示 。 


从 图 2-15 可 以 看 出 ,Pi 值 已 经 被 计算 完毕 , 即 Pi is roughly 3. 140691140691141。 
在 高 可 用 模式 提交 任务 时 ,可 能 涉及 多 个 Master, 所 以 对 于 应 用 程序 的 提交 就 发 生 了 
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Sperk Mester at sperks x 


eS © [© rs | eeooptlaot 


Sa ,,, Spark Master at spark://hadoop01:7077 


URL: spark/hadoopOt.7077 
REST URL: sparc/madoopOT-6066 (custer mode) 
Alive Workers: 2 

Cores in use: 2 Tolal 1 Used 
Memory im use: 3.6 GB Total, 1024.0 MB Used 
Applications: 1 Running, 0 Complcted 

Drivers: 0 Running. 0 Completed 

Status: ALIVE 


Workers (2) 


Worker ld Address Memory 
worker 20181025020343 .192.168.121.136.57848 192 168 121 .136-57848 1848.0 MB [1024 0 MB Used) 
Wworker-20181025020346-192.166.121.135-59234 192 168 121 135-59234 1646.0 MB (00B Used) 


Running Applications (1) 
Application ID Submitted Time 
app-20181026101236-0000 2018/10126 10:1236 


Completed Applications (0) 


图 2-13 查看 Spark 正在 执行 的 应 用 


[DY Spark Mesterat spere) x 
了 © [© Aes | hadoaopol:8080 


Sa ,,, Spark Master at spark:/hadoop01:7077 


URL: spark/hadoopO1:7077 

REST URL: spancladoop0T6066 (custor mode} 
Alive Workers: 2 

Cores in use: 2 Tolal 0 Used 

Memory im usa: 3.6 GB Total, 0.0 B Used 
Applications: 0 Running, 1 Completed 

Drivers: 0Running.0 Completed 

Status: ALIVE 


Workers (2) 


Worker Id Cores Memory 
worker-20181025020343-192.168.121.136-57848 1(0Used) 1848.0MB (00B Used) 


Wworker-20181025020348-192.168.121.135-59234 1(0Used) 。 1846.0MB (0.0B Used) 


Running Applications (0) 


AD [mame [Coms [oe es ovoon 


Completed Applications (人 
Application ID Name Cores ”Memory per Executor 
app 20181026101736 0000 Er 


图 2-14 查看 执行 完毕 的 应 用 


一 些 变化 ,因为 应 用 程序 需要 知道 当前 的 Master 的 IP 地 址 和 端口 ,为 了 解决 这 个 问题 ,只 
需要 在 SparkContext 指向 一 个 Master 列表 ,执行 提交 任务 的 命令 如 下 。 
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力 hedoopol-l92168121134-secuectr 天 
DT 


Enter host <Ak+R> 


hadoop01-192.168.121134 x | © hadoop02-192.168.121.135 | @ hadoop03-192.168.121136 


345 INFO TasKSetManager:54 -~ starting task 9.0 Tn stage 0.0 上 
Executor 0， partition 9, PROCESS_LOCAL, 7857 bytes) 
0-26 10:12:45 INFO TaskSetManager:54 - Finished task 8.0 in stage 0.0 (TID 8) in 752 ms 
on 192.168.121.136 (executor 0) 99109 
2018-10-26 10:12:45 INFO TaskSetManager:54 - Finished task 9.0 in stage 0.0 (TID 9) in 152 ms 
on 192.168.121.136 (executor 0) (10/10) 
2018510126.10:12:45 INFO DAGScheduler:54 - Resultstage 0 (reduce ar Sparkpi.scala:38) finished 
n 8.011 
2018-10-26 10:12:45 INFO TaskschedulerImpl:54 - Removed Taskset 0.0, whose tasks have all comp 
Teted, from pool 


0-26 8? 12:45 INFO DAGscheduler:54 - Job 0 finished: reduce at SparkPi.scala:38，took 8. 


DAEStFactconnector :318 - Stopped Spark@3c91f248{HTTP/1.1, [http/1.1]}{0 


INFO SparkUI:54 — | Spark. web UI at http://hadoop01:4040 


INFO StandaloneschedulerBackend:54 - Shutting down all executors 


INFO CoarseGrainedschedulerBackend$DriverEndpoint:54 - Asking each executo 


r to shut down 
2018-10-26 10:12:45 INFO MapourputTrackerMasterEndpoint:54 - MapoutputTrackerMasterEndpoint st 
opped' 


2018-10-26 10:12:46 INFO Memorystore:54 - Memorystore cleared 
2018-10-26 10:12:46 INFO BlockManager:54 - BlockManager stopped 
2018-10-26 10:12:46 INFO BlockManagerMaster:54 - BlockManagerMaster stopped 
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图 2-15 使 用 Spark 计算 圆周 率 


bin/spark- submit \ 

--class org.apache.spark.examples .SparkPi \ 

--master spark://hadoop01:7077,hadoop02:7077,hadoop03:7077 \ 
--executor-memory 1G \ 

--total-executor-cores 1\ 

‘examples/jars/spark-examples 2.11-2.3.2.jar \ 
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2.5 局 动 Spark-Shell 


Spark-Shell 是 一 个 强大 的 交互 式 数据 分 析 工 具 , 初 学 者 可 以 很 好 地 使 用 它 来 学 习 相 关 
API, 用 户 可 以 在 命令 行 下 使 用 Scala 编写 Spark 程序 ,并 且 每 当 输入 一 条 语句 ,Spark-Shell 
就 会 立即 执行 语句 并 返回 结果 ,这 就 是 REPL(Read-Eval-Print Loop, 交互 式 解释 器 )， 
Spark-Shell 支持 Scala 和 Python, 如果 需要 进入 Python 语言 的 交互 式 执行 环境 ,只 需要 执 
行 pyspark 命令 即 可 。 


2.5.1 运行 Spark-Shell 命令 


在 spark/bin 目录 中 ,执行 Spark-Shell 命令 就 可 以 进入 Spark-Shell 交互 式 环境 ,具体 
执行 命令 如 下 。 


Sbin/spark- shell --master <master-url> 


上 述 命 令 中 ,一 master 表示 指定 当前 连接 的 Master 节点 ,一 masterurl 二 用 于 指定 
Spark 的 运行 模式 ,master-url 可 取 的 参数 值 如 表 2-1 所 示 。 
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表 2-1 master-url 参数 列表 


参数 名 称 功能 描述 
local 使 用 一 个 Worker 线程 本 地 化 运行 Spark 
local[ * ] 本 地 运行 Spark, 其 工作 线程 数量 与 本 机 CPU 逻辑 核心 数量 相同 
local[ NJ 使 用 N 个 Worker 线程 本 地 化 运行 Spark( 根 据 运行 机 器 的 CPU 核 数 设 定 ) 


spark://host: port “| 在 Standalone 模式 下 ,连接 到 指定 的 Spark 集群 ,默认 端口 号 是 7077 


以 客户 端 模式 连接 Yarn 集群 ,集群 的 位 置 可 以 在 HADOOP_CONF_DIR 环境 变 
量 中 配置 

以 集群 模式 连接 Yarn 集群 ,集群 的 位 置 可 以 在 HADOOP_CONF_DIR 环境 变量 
中 配置 


mesos://host: port | 连接 到 指定 的 Mesos 集群 ,默认 端口 号 是 5050 


yarn-client 


yarn-cluster 


如 需 查 询 Spark-Shell 的 更 多 使 用 方式 可 以 执行 “--help 命令 ”获取 帮助 选项 列表 ,如 
图 2-16 所 示 。 
[EEC 


Ble Edit View Options Iransfer Script Tools Window Help 


Enter host <AH+R> 豆 


| w hadoop01-192.168.121134 x | 多 hadoop02-192.168.121.135 | @ hadoop03-192.168.121.136 4 
TootghadoopoIT P7sparK-sheTT --heTp ~ 


JT Spark]s 
Usage: ./bin/spark-she1l [options] 


options: 
~-master MASTER_URL spark://host:port, mesos://host:port, yarn, 
kK8s://https;//host: pors: or Tocal CDefauls; 9cal Fe]?: 
--deploy-mode DEPLOY_MODE whether to jaunch the driver program locally (“client”) or 
on one of the worker machines inside the cluster ("cluster") 
(Default: client). 


--Class CLASS_NAME Your application’s main class (for Java / scala apps). 
--name NAME A name of your application. 
--jars JARS Comma-separated \ist of jars to include on the driver 
and executor classpaths. 
--packages Comma-separated list of maven coordinates of jars to include 


on the driver and executor classpaths. will search the local 
maven repo, then maven central and any additional remote 
repositories given by =-repositories. The formar for the 
Seordinares should be grouprd:artifaerId; version, 
--exclude-packages Comma-separated list of groupId:artifactId, to exclude while 
resolving the dependencies provided in --packages to avoid 


dependency conflicts. 国 
--repositories Comma-separated list of additional remote repositories to 

search for the maven coordinates given with --packages. 
--py-files PY_FILES Comma-separated list of .zip, .egg, or .py files to place 


Ready ssh2: AES-256-CTR 24, 24 24 Rows, 95 Cols VT100 CAP NUM 


图 2-16 ”Spark-Shell 帮助 命令 


2.5.2 运行 Spark-Shell 读 取 HDFS 文件 


下 面 通过 启动 Spark-Shell, 并 且 使 用 Scala 语言 开发 单词 计数 的 Spark 程序 , 现 有 文本 
文件 words. txt( 读 者 需要 在 本 地 创建 文件 并 上 传 至 指定 目录 ) 在 HDFS 中 的 /spark/test 路 
径 下 , 且 文 本 内 容 如 下 。 


hello hadoop 
hello spark 
hellp itcast 
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如 果 使 用 Spark-Shell 来 读 取 HDFS 中 的 /spark/test/ words. txt 文件 ,具体 步骤 如 下 。 


1. 整合 Spark 与 HDFS 


Spark 加 载 HDFS 上 的 文件 ,需要 修改 spark-env. sh 配置 文件 ,添加 HADOOP_CONF_ 


DIR 配置 参数 ,指定 Hadoop 配置 文件 的 目录 .添加 配置 参数 如 下 。 


+ 指定 HDFS 配置 文件 目录 
export HADOOP CONF DIR=/export/servers/hadoop-2.7.4/etc/hadoop 


2. 启动 Hadoop、Spark 服务 

配置 完毕 后 ,启动 Hadoop 集群 服务 ,并 重新 启动 Spark 集群 服务 ,使 配置 文件 生效 。 
3. 启动 Spark-Shell 编写 程序 

启动 Spark-Shell 交互 式 界面 ,执行 命令 如 下 。 

S$bin/spark- shell --master local[2] 


执行 上 述 命令 ,Spark-Shell 启动 成 功 后 ,就 会 进入 如 图 2-17 所 示 的 程序 交互 界面 。 
| 


EE ss es Tee? Wudow Hoe 


和 允 旨 油 Enter host <Alt+R> 


4 


Spar D 
2018-10°26 14:20014 WARN NativecodeL oader:62°" unable to 1oad native-hadoop 1ibrary for your p“ 
1atform.,. using i Slasses where applicable 

evel to "WARN” 


Fo 
VM- /dad 
全 7 :一 /人 ~-,-/-/ /-/\-\ version 2.3.2 


using scala version 2.11.8 (Java HotSpot(T™) 64-Bit Server WW, Java 1.8.0_161) 
Type in expressions to have them evaluated. 
Type :help for more information. 


scala> 


ssh2: AES-256-CTR 20, 8 24Rows,95Cols VT100 


图 2-17 Spark-Shell 模式 


Spark-Shell 本 身 就 是 一 个 Driver, 它 会 初始 化 一 个 SparkContext 对 象 为 se, 用户 可 以 
直接 调用 。 下 面 编 写 Scala 代码 实现 单词 计数 ,具体 代码 如 下 。 


scala >sc.textFile("/spark/test/words.txt"). 
flatMap( .split(" ")).map(( ,1)).reduceByKey( + ).collect 
res0: Rrray[ (string, Int)] =Array((itcast,1), (hello,3), (spark,1), (hadoop,1)) 
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上 述 代码 中 ,res0 表示 返回 的 结果 对 象 , 该 对 象 中 是 一 个 Array[(String, Int)] 类 型 的 
集合 , (itcast,1) 则 表示 itcast 单词 总 计 为 1 个 。 

4. 退出 Spark-Shell 客户 端 

可 以 使 用 命令 : quit 退出 Spark-Shell, 代 码 如 下 所 示 。 


scala > : quit 


也 可 以 使 用 快捷 键 Ctrl 十 D 退出 Spark-Shell。 


2.6 IDEA 开发 WordCount 程序 


Spark-Shell 通常 在 测试 和 验证 程序 时 使 用 较 多 ,在 生产 环境 中 ,通常 会 在 IDEA 开发 
工具 中 编写 程序 ,然后 打 成 Jar 包 , 最 后 提交 到 集群 中 执行 。 本 节 将 利用 IDEA 工具 开发 一 
个 WordCount 单词 计数 程序 。 


2.6.1 以 本 地 模式 执行 Spark 程序 
Spark 作业 与 MapReduce 作业 同样 可 以 先 在 本 地 开发 测试 ,本 地 执行 模式 与 集群 提交 模 


式 的 业务 功能 的 代码 相同 ,因此 本 书 大 多 数 采用 本 地 开发 模式 。 下 面 讲解 使 用 IDEA 工具 在 
让 TPR 和 本 地 开发 WordCount 单词 计数 程序 的 相关 步骤 。 
> 和 jidea 
v src 1. 创建 Maven 项 目 , 新 建 资源 文件 夹 
v Mmain 
和 创建 一 个 Maven 工程 项 目 ,命名 为 spark _ 
De chapter02。 项 目 创建 好 后 ,在 main 和 test 目录 下 
Ee 分 别 创建 一 个 名 为 scala 的 文件 夹 , 创 建 好 的 目录 
Pa 结构 如 图 2-18 所 示 。 
钢 spark_chapter02jml 在 图 2-18 中 ,选中 main 目录 下 的 scala 文件 
> ll External Ubraries 


夹 . 右 击 选择 【Mark Directory as】 一 【Sources 

图 2-18 Spark_chapter02 项 目 目录 结构 Root. 将 文件 夹 标记 为 资源 文件 夹 类 型 ;同样 地 ， 

选中 test 目录 下 的 scala 文件 夹 , 右 击 选择 【Mark 

Directory as】- 江 Test Sources Root]. 将 文件 夹 标记 为 测试 资源 文件 夹 类 型 。 其 中 ,资源 文 
件 夹 中 存放 项 目 源码 文件 ,测试 文件 夹 中 存放 开发 中 测试 的 源码 文件 。 


2. 添加 Spark 的 相关 依赖 和 打包 插件 


Maven 是 一 个 项 目 管理 工具 ,虽然 刚才 创建 好 了 项 目 , 但 是 却 不 能 识别 Spark 类 , 因 
此 ,需要 将 Spark 相关 的 依赖 添加 到 Maven 项 目 中 。 打 开 pom. xml 文件 ,在 该 文件 中 添加 
的 依赖 如 下 所 示 : 


1 <!-- 设 置 依 赖 版 本 号 --> 
加 <properties> 


3 <scala.version>2.11.8</scala.version> 
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在 上 述 配置 参数 片段 中 ,二 properties 二 标签 用 来 设置 所 需 依 赖 的 版 本 号 ,其 中 在 
二 dependencies 过 标签 中 添加 了 Scala、Hadoop 和 Spark 相关 的 依赖 ,设置 完毕 后 ,相关 Jar 
文件 会 被 自动 加 载 到 项 目 中 。 


3. 编写 代码 ,查看 结果 


在 main 目录 下 的 scala 文件 夹 中 ,创建 WordCount. scala 文件 用 于 词 频 统 计 , 代 码 如 文 
件 2-3 所 示 。 
文件 2-3 WordCount. scala 
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15 sparkContext .textFile ("D:\\word\\words.txt") 
16 //4. 切 分 每 一 行 , 获 取 所 有 的 单词 

237 val words :RDD[string] =data.flatMap( .split (" ")) 

18 //5. 每 个 单词 记 为 1, 转 换 为 单词, 1) 

19 val wordandone :RDD[ (string, Int)] =words.map (x => (x,1)) 

20 //6. 相 同 单词 汇总 ,前 一 个 下 画 线 表示 累加 数据 ,后 一 个 下 画 线 表 示 新 数据 
21 val result: RDD[ (String，Int)] =wordAndone.reduceByKey( + ) 
22 /17. 收 集 打印 结果 数据 

23 val finalResult: Rrray[ (string, Int)] =result.collect () 

24 println (finalResult.toBuffer) 

25 /1/8. 关 闭 sparkcontext 对 象 

26 sparkContext .stop() 

2 } 

28 } 


上 述 代码 中 ,第 7 一 11 行 代码 创建 SparkContext 对 象 并 通过 SparkConf 对 象 设置 配置 
参数 ,其 中 Master 为 本 地 模式 , 即 可 以 在 本 地 直接 运行 ;第 14 一 24 行 代码 中 , 读 取 数据 文 
件 , 将 获得 的 数据 按照 空格 切 分 .将 每 个 单词 记 作 ( 单 词 .1) .之 后 若 出 现 相同 的 单词 就 将 次 
数 累加 ,最 终 打印 数据 结果 ;第 26 行 代码 表示 关闭 SparkContext 对 象 资源 。 执 行 代码 成 功 
后 ,在 控制 台 可 以 查看 输出 结果 ,如 图 2-19 所 示 。 


恒 " 二 


19/01/16 15:49:05 INFO TaskSetManager: Finished task 1.0 in stage 1.0 (TID | 
19/01/16 15:49:05 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks 1| 
5 INFO Bescheduler: ResultStage 1 {oniect at WordCount.sca 


INFO SarKOT: Stopped ar web UI at http://CZzBK-2018090Q4¢| 
5 INFO MapoutputTrackerMasterEndpoint: MapOutputTrackerMas 包 | 


NEO_ MemoryStore: MemoryStore cleared, 


图 2-19 IDEA 开发 WordCount 


从 图 2-19 可 以 看 出 ,文本 中 的 单词 已 经 成 功 统计 了 出 现 的 次 数 。 
2.6.2 集群 模式 执行 Spark 程序 


集群 模式 是 指 将 Spark 程序 提交 至 Spark 集群 中 执行 ,由 Spark 集群 负责 资源 的 调度 ， 
程序 会 被 框架 分 发 到 集群 中 的 节点 上 并 发 地 执行 。 下 面 分 步骤 介绍 如 何在 集群 模式 下 执行 
Spark 程序 。 


1. 添加 打包 插件 


在 实际 工作 应 用 中 ,代码 编写 完成 后 ,需要 将 程序 打包 ,上 传 至 服务 器 运行 ,因此 还 需要 
向 pom. xml 文件 中 添加 所 需 插件 ,具体 配置 参数 如 下 。 


<build> 
<sourceDirectory>src/main/scala</sourceDirectory> 
<testsourceDirectory>src/test/scala< /testSourceDirectory> 
<plugins> 
<plugin> 


um wm PP 
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小 提示 : 
如 果 在 创建 Maven 工程 中 选择 Scala 原型 模板 ,上 述 插件 会 自动 创建 。 这 些 插件 的 主 
要 功能 是 方便 开发 人 员 进 行 打包 。 


2. 修改 代码 ,打包 程序 


在 打包 项 目 之 前 ,需要 对 词 频 统计 的 代码 进行 修改 ,创建 WordCount_Online. scala 文 
件 , 代 码 如 文件 2-4 所 示 。 
文件 2-4 WordCount_Online. scala 


1 import org.apache.spark.{SparkConf, SparkContext} 

2 import org.apache.spark.rdd.RDD 

3 “”// 编 写 单词 计数 程序 , 打 成 Jar 包 , 提 交 到 集群 中 运行 

4 object Wordcount online { 

5 def main (args: Array[ string]): Unit ={ 

6 //1. 创 建 Sparkconf 对 象 ,设置 appName 

Val sparkconf =new SparkConf () .setAppName ("Wordcount Online") 
8 //2. 创 建 Sparkcontext 对 象 , 它 是 所 有 任务 计算 的 源头 

9 // 它 会 创建 DAGScheduler 和 Taskscheduler 


10 Val sparkContext =new SparkContext (sparkconf) 

11 //3. 读 取 数据 文件 ,RDD 可 以 简单 地 理解 为 是 一 个 集合 ,存放 的 元 素 是 String 类 型 
12 val data : RDD[string] =sparkContext .textFile (args (0)) 

13 //4. 切 分 每 一 行 ,获取 所 有 的 单词 

14 val words :RDDLString] =data.flatMap( .split (" ")) 

15 /1/5. 每 个 单词 记 为 1, 转 换 为 单词 ,1) 

16 val wordandone :RDD[ (string, Int)] =words.map (x => (x,1)) 

17 //6. 相 同 单词 汇总 ,前 一 个 下 画 线 表示 累加 数据 ,后 一 个 下 画 线 表示 新 数据 
18 val result: RDD[ (String，Int)] =wordandone.reduceByKey( + _) 
19 /117. 把 结果 数据 保存 到 HDFS 上 

20 result .saveAsTextFile (args (1)) 

21 /1/8. 关 闭 sparkcontext 对 象 

22 sparkContext .stop () 

23 } 

24 } 


上 述 第 12 行 代码 textFileCargs(0)) 表 示 通 过 外 部 传人 的 参数 用 来 指定 文件 路 径 , 第 20 
行 代码 表示 将 计算 结果 保存 至 HDFS 中 。 其 余 代码 与 本 地 模式 执行 Spark 程序 代码 相同 。 
通过 使 用 Maven Projects 工具 ,双击 package 选项 , 即 可 自动 将 项 目 打 成 Jar 包 , 如 图 2-20 

最 终生 成 的 Jar 文件 会 被 创建 在 项 目的 target 目录 中 ,如 图 2-21 所 示 。 

从 图 2-21 可 以 看 出 ,项 目 生 成 了 两 个 Jar 包 , 其 中 original 包 中 不 含有 第 三 方 Jar, 将 
spark_chapter02-1. 0-SNAPSHOT. jar 包 上 传 至 hadoop01 节点 中 的 /export/data 路 径 下 。 


3. 执行 提交 命令 


在 hadoop01 节点 的 spark 目录 下 ,执行 spark-submit 命令 提交 任务 ,命令 如 下 。 
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+ 小 多 三 二 | 隔 
|v 吝 spark_chapter02 
v MG Ufeyde 
阁 dean 


关 install 
次 site 
辣 deploy 

> BPlugins 

> Wh Dependences 


图 2-20 Mavne 工具 打包 


全 Project 也 PE 
~ Ws spark chapter02 Di\ideaworkspace\spark_chapter02 
> Majdea 
vhsrc 
Y 有 main 
有 java 
Be resources 
Y Mscala 
Y 四 cnitcast 
@ WordCount 
@ WordCount_Online 


v Mtest 
Mjava 
Mn scala 
Y Mtarget 
> Mclasses 
> MM generated-sources 
> Mm maven-archiver 
> Mmaven-status 
前 classes.2056719278timestamp 
围 original-spark_chapter02-LO-SNAPSHOTjar 


襄 dependency-reduced-pomxml 
M pomxml 
六 spark_chapter02jml 

> ll External Libraries 


图 2-21 打包 地 址 


bin/spark- submit - -master spark://hadoop01:7077 \ 
--class cn.itcast .WordCcount Online \ 
--executor-memory 1g \ 

--total-executor-cores 1\ 

/export/data/spark chapter02-1.0- SNAPSHOT.jar \ 
/spark/test/words.txt \ 

/spark/test/out 


上 述 命令 中 ,首先 通过 一 master 参数 指定 了 Master 节点 地 址 ,class 参数 指定 运行 主 
类 的 全 路 径 名 称 » 然后 通过 --executor-memory 和 一 total-executor-cores 参数 指 定 执行 器 的 
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资源 分 配 ,最 后 指定 Jar 包 所 在 的 绝对 路 径 。 其 中 /spark/test/words. txt 是 文件 2-4 中 第 
12 行 代码 的 输入 参数 args (0) ,表示 需 要 计算 的 数据 源 所 在 路 径 ;/spark/test/out 是 文 
件 2-4 中 第 20 行 代码 输入 参数 args(1) ,表示 程序 计算 完成 后 ,输出 结果 文件 存储 路 径 。 执 
行 成 功 后 ,进入 HDFS Web 页 面 查看 /spark/test/out 文件 夹 , 如 图 2-22 所 示 。 


€ 3 © [© Fg | hadoopOL:50070/explorerhtmi#/sparki/testout 


Hadoop 


Browse Directory 


| /spark/test/out 


Permission Last Modified BlockSize Name 
-Wr 2018/10/25 下 午 5:10.51 128 MB _SUCCESS 
Wr 2018/10/26 下 午 5:10:50 128 MB part-00000 


Wr 2018/10/26 下 午 5:10:51 128 MB part-00001 


Hadoop, 2017. 


图 2-22 输出 结果 文件 


从 图 2-22 可 以 看 出 ,在 /spark/test/out 路 径 下 生成 了 3 个 结果 文件 ,其 中 SUCCESS 
为 标识 文件 ,表示 任务 执行 成 功 , part- * 文件 为 真正 的 输出 结果 文件 。 输 出 结果 文件 
part- * 最 终 可 以 下 载 至 本 地 或 者 使 用 Hadoop 命令 -cat 查看 ,执行 命令 查看 文件 结果 如 下 
所 示 。 


S$hadoop fs -cat /spark/test/out/part* 
(itcast,1) 

(hello, 3) 

(spark,1) 

(hadoop, 1) 


2.7 ”本章 小 结 


本 章 主 要 讲解 了 什么 是 Spark ,部 署 Spark 集群 以 及 对 Spark 系统 的 使 用 。 通 过 本 章 
的 学 习 , 读 者 能 够 了 解 Spark 的 特点 、 运 行 架构 与 原理 ,具备 独立 部 署 Spark 集群 的 能 力 ,会 
简单 使 用 Spark 集群 运行 程序 。 本 章 内 容重 点 是 搭建 Spark 集群 和 理解 Spark 运行 架构 等 
基础 概念 ,学 好 这 些 内 容 能 够 为 后 续 深入 学 习 Spark 生态 系统 做 好 充分 准备 。 
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2.8 课 后 习题 
一 、 填 空 题 


1. Spark 生态 系统 包含 \Spark SQL、 \MLlib、 以 及 独立 调 
度 器 组 件 。 

2. Spark 计算 框架 的 特点 是 速度 快 、 ` 通 用 性 和 
.Spark 集群 的 部 署 模式 有 Standalone 模式 、 和 Mesos 模式 。 
. 启动 Spark 集群 的 命令 为 
.Spark 集群 的 运行 架构 由 \Cluster Manager 和 组 成 。 


Sd 


二 、 判断 题 


1， Spark 诞生 于 洛桑 联邦 理工 学 院 (EPFL) 的 编程 方法 实验 室 。 

2. Spark 比 Hadoop 计算 的 速度 快 。 

3. 部 署 Spark 高 可 用 集群 不 需要 用 到 Zookeeper 服务 。 

4. Spark Master HA 主 从 切换 过 程 不 会 影响 集群 已 有 的 作业 运行 。 
5. 集群 上 的 任务 是 由 执行 器 来 调度 的 。 


~___~ 


三 、 选择 题 
1. 下 列 选 项 中 ,哪个 不 是 Spark 生态 系统 中 的 组 件 ? ( ) 
A. Spark Streaming B. Mlib 
C. Graphx D. Spark R 
2. 下 面 哪个 端口 不 是 Spark 自 带 服务 的 端口 ?( ) 
A. 8080 B. 4040 C. 8090 D. 18080 


3. 下 列 选项 中 ,针对 Spark 运行 的 基本 流程 哪个 说 法 是 错误 的 ? ( ) 
A. Driver 端 提交 任务 ,向 Master 申请 资源 
B，Master 与 Worker 进行 TCP 通信 ,使 得 Worker 启动 Executor 
C，Executor 启动 会 主动 连接 Driver, 通 过 Driver 二 Master- 二 WorkExecutor, 从 而 
得 到 Driver 在 哪里 
D. Driver 会 产生 Task ,提交 给 Executor 中 启动 Task 去 做 真正 的 计算 


四 、 简 答题 


1. 简 述 Spark 计算 框架 的 特点 。 
2. 简 述 Spark 集群 的 基本 运行 流程 。 
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学 习 目 标 

理解 RDD 的 五 大 特征 。 

。 掌握 RDD 的 创建 方法 。 

掌握 RDD 的 转换 算 子 和 行动 算 子 的 操作 方法 。 
。 了 解 RDD 之 间 的 依赖 关系 。 

。 了 解 RDD 的 持久 化 和 容错 机 制 。 

。 理解 Spark 的 任务 调度 。 


传统 的 MapReduce 虽然 具有 自动 容错 ,平衡 负载 和 可 拓展 性 强 的 优点 ,但 是 其 最 大 缺 
点 是 采用 非 循环 式 的 数据 流 模型 ,使 得 在 迭代 计算 时 要 进行 大 量 的 磁盘 IO 操作 。Spark 
中 的 RDD 可 以 很 好 地 解决 这 一 缺点 。RDD 是 Spark 提供 的 最 重要 的 抽象 概念 ,可 以 将 
RDD 理解 为 一 个 分 布 式 存储 在 集群 中 的 大 型 数据 集合 ,不 同 RDD 之 间 可 以 通过 转换 操作 
形成 依赖 关系 实现 管道 化 ,从 而 避免 了 中 间 结 果 的 1/O 操作 ,提高 数据 处 理 的 速度 和 性 能 。 
接 下 来 ,本 章 将 针对 RDD 进行 详细 讲解 。 


3.1 RDD 简介 


RDD(Resilient Distributed Dataset ,弹性 分 布 式 数据 集 ) ,是 一 个 容错 的 、 并 行 的 数据 结 
构 , 可 以 让 用 户 显 式 地 将 数据 存储 到 磁盘 和 内 存 中 ,并 且 还 能 控制 数据 的 分 区 。 对 于 迭代 式 
计算 和 交互 式 数据 挖掘 ,RDD 可 以 将 中 间 计 算 的 数据 结果 保存 在 内 存 中 ,若是 后 面 需要 中 
间 结 果 参 与 计算 时 , 则 可 以 直接 从 内 存 中 读 取 ,从 而 可 以 极 大 地 提高 计算 速度 。 

每 个 RDD 都 具有 五 大 特征 ,具体 如 下 。 


1. 分 区 列表 (a list of partitions) 


每 个 RDD 被 分 为 多 个 分 区 (Partitions) ,这 些 分 区 运行 在 集群 中 的 不 同 节点 ,每 个 分 区 
都 会 被 一 个 计算 任务 处 理 ,分 区 数 决 定 了 并 行 计 算 的 数量 ,创建 RDD 时 可 以 指定 RDD 分 
区 的 个 数 。 如 果 不 指定 分 区 数量 , 当 RDD 从 集合 创建 时 ,默认 分 区 数量 为 该 程序 所 分 配 到 
的 资源 的 CPU 核 数 (每 个 Core 可 以 承载 2 一 4 个 Partition) ,如 果 是 从 HDFS 文件 创建 , 默 
认为 文件 的 Block 数 。 
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2. 每 个 分 区 都 有 一 个 计算 函数 (a function for computing each split) 


Spark 的 RDD 的 计算 函数 是 以 分 片 为 基本 单位 的 ,每 个 RDD 都 会 实现 compute 函数 ， 
对 具体 的 分 片 进 行 计算 。 

3. 依赖 于 其 他 RDD(a list of dependencies on other RDDs) 

RDD 的 每 次 转换 都 会 生成 一 个 新 的 RDD, 所 以 RDD 之 间 就 会 形成 类 似 于 流水 线 一 样 


的 前 后 依赖 关系 。 在 部 分 分 区 数据 丢失 时 ,Spark 可 以 通过 这 个 依赖 关系 重新 计算 丢失 的 
分 区 数据 ,而 不 是 对 RDD 的 所 有 分 区 进行 重新 计算 。 


4. (Key,Value) 数 据 类 型 的 RDD 分 区 器 (a Partitioner for Key-Value RDDS) 


当前 Spark 中 实现 了 两 种 类 型 的 分 区 函数 ,一 个 是 基于 哈 希 的 HashPartitioner, 另 外 
一 个 是 基于 范围 的 RangePartitioner。 只 有 对 于 (Key, Value) 的 RDD, 才 会 有 Partitioner 
(分 区 ), 非 (Key,Value) 的 RDD 的 Parititioner 的 值 是 None。Partitioner 函数 不 但 决定 了 
RDD 本 身 的 分 区 数量 ,也 决定 了 parent RDD Shuffle 输出 时 的 分 区 数量 。 


5. 每 个 分 区 都 有 一 个 优先 位 置 列表 (a list of preferred locations to compute each split on) 
优先 位 置 列表 会 存储 每 个 Partition 的 优先 位 置 ,对 于 一 个 HDFS 文件 来 说 ,就 是 每 个 


Partition 块 的 位 置 。 按 照 * 移 动 数 据 不 如 移动 计算 ”的 理念 ,Spark 在 进行 任务 调度 的 时 候 ， 
会 尽 可 能 地 将 计算 任务 分 配 到 其 所 要 处 理 数据 块 的 存储 位 置 。 


3.2 RDD 的 创建 方式 


Spark 提供 了 两 种 创建 RDD 的 方式 ,分 别 是 从 文件 系统 (本 地 和 HDFS) 中 加 载 数据 创 
建 RDD 和 通过 并 行 集合 创建 RDD。 接 下 来 ,本 节 将 讲解 RDD 的 两 种 创建 方式 。 


3.2.1 从 文件 系统 加 载 数据 创建 RDD 


Spark 可 以 从 Hadoop 支持 的 任何 存储 源 中 加 载 数据 去 创建 RDD, 包 括 本 地 文件 系统 
和 HDFS 等 文件 系统 。 

接 下 来 ,通过 Spark 中 的 SparkContext 对 象 调用 textFile() 方 法 加 载 数据 创建 RDD。 
这 里 以 Linux 本 地 系统 和 HDFS 为 例 , 讲 解 如 何 创建 RDD。 


1. 从 Linux 本 地 文件 系统 加 载 数据 创建 RDD 


在 Linux 本 地 文件 系统 中 有 一 个 名 为 test. txt 的 文件 ,具体 内 容 如 文件 3-1 所 示 。 
文件 3-1 test. txt 


1 hadoop spark 
2 itcast heima 
3 scala spark 
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4 spark itcast 
5 itcast hadoop 


在 Linux 本 地 系统 读 取 test. txt 文件 数据 创建 RDD, 具 体 代 码 如 下 : 


scala>val test=sc.textFile ("file:///export/data/test .txt") 
test: org.apache.spark.rdd.RDD[ string]=file:///export/data/test .txt 
MapPartitionsRDD[1] at textFile at <console> :24 


上 述 的 代码 中 ,文件 路 径 中 的 file:// 表 示 从 本 地 Linux 文件 系统 中 读 取 文件 。test: 
org. apache. spark. rdd. RDD[ String]… 是 命令 执行 后 返回 的 信息 ,而 test 则 是 一 个 创建 好 
的 RDD。 当 执行 textFile() 方 法 后 ,Spark 会 从 Linux 本 地 文件 test. txt 中 加 载 数据 到 内 存 
中 ,在 内 存 中 生成 了 一 个 RDD 对 象 ( 即 test) ,并 且 这 个 RDD 里 面包 含 若干 个 String 类 型 的 
元 素 , 也 就 是 说 ,从 test. txt 文件 中 读 取出 来 的 每 一 行文 本 内 容 , 都 是 RDD 中 的 一 个 元 素 。 


2. 从 HDFS 中 加 载 数据 创建 RDD 


假设 ,在 HDFS 上 的 /data 目录 下 有 一 个 名 为 test. txt 的 文件 ,该 文件 内 容 与 文件 3-1 
相同 。 接 下 来 ,通过 加 载 HDFS 中 的 数据 创建 RDD, 具 体 代码 如 下 : 


scala>val testRDD=sc.textFile("/data/test .txt") 
testRDD:org.apache.spark.rdd.RDD[ string]=/data/test.txt MapPartitionsRDD[1] 
at textFile at <console> :24 


执行 上 述 代码 后 ,从 返回 结果 testRDD 的 属性 中 看 出 RDD 创建 完成 。 在 上 述 代码 中 ， 
通过 textFile("/data/test. txt") 方 法 来 读 取 HDFS 上 的 文件 ,其 中 方法 testFile() 中 的 参数 
为 /data/test. txt 文件 路 径 , 传 人 的 参数 也 可 以 为 hdfs://localhost:9000/data/test. txt 和 / 
test. txt 路 径 , 最 终 所 达到 的 效果 是 一 致 的 。 


3.2.2 通过 并 行 集合 创建 RDD 


Spark 可 以 通过 并 行 集合 创建 RDD。 即 从 一 个 已 经 存在 的 集合 .数组 上 ,通过 
SparkContext 对 象 调用 parallelize( ) 方 法 创建 RDD。 

若 要 创建 RDD, 则 需要 先 创建 一 个 数组 ,再 通过 执行 parallelize( ) 方 法 实现 ,具体 代码 
如 下 : 


scala>val array=Array (1,2,3,4,5) 

array: Array[ Int]=Array (1,2,3,4,5) 

scala>val arrRDD=sc.parallelize (array) 

arrRDD: org.apache.spark.rdd .RDD[Int]=ParallelcollectionRDD[6] at Parallelize 
at <console>:26 


执行 上 述 代码 后 ,从 返回 结果 arrRDD 的 属性 中 看 出 RDD 创建 完成 。 


第 3 章 Spark RDD 弹性 分 布 式 数 据 集 


3.3 RDD 的 处 理 过 程 


Spark 用 Scala 语言 实现 了 RDD 的 API, 程 序 开发 者 可 以 通过 调用 API 对 RDD 进行 
操作 处 理 。 下 面 ,通过 图 3-1 来 描述 RDD 的 处 理 过 程 。 


SO 


图 3-1 RDD 的 处 理 过 程 


在 图 3-1 中 ,RDD 经 过 一 系列 的 “转换 ”操作 ,每 一 次 转换 都 会 产生 不 同 的 RDD, 以 供给 
下 一 次 “转换 ”操作 使 用 ,直到 最 后 一 个 RDD 经 过 “行动 ”操作 才 会 被 真正 计算 处 理 , 并 输出 
到 外 部 数据 源 中 ,若是 中 间 的 数据 结果 需要 复 用 , 则 可 以 进行 缓存 处 理 , 将 数据 缓存 到 内 
存 中 。 

需要 注意 的 是 ,RDD 采用 了 惰性 调用 , 即 在 RDD 的 处 理 过 程 中 ,真正 的 计算 发 生 在 
RDD 的 “行动 ”操作 ,对 于 “行动 ”之 前 的 所 有 “转换 ”操作 ,Spark 只 是 记录 下 “转换 ”操作 应 
用 的 一 些 基 础 数据 集 以 及 RDD 生成 的 轨迹 ( 即 RDD 相互 之 间 的 依赖 关系 ), 而 不 会 触发 真 
正 的 计算 处 理 。 

接 下 来 ,将 针对 RDD 处 理 过 程 中 的 “转换 "操作 和 “行动 "操作 进行 详细 的 讲解 。 


3.3.1 转换 算 子 


RDD 处 理 过 程 中 的 “转换 ”操作 主要 用 于 根据 已 有 RDD 创建 新 的 RDD, 每 一 次 通过 
Transformation 算 子 计算 后 都 会 返回 一 个 新 RDD, 供 给 下 一 个 转换 算 子 使 用 。 下 面 ,通过 
表 3-1 来 列举 一 些 常 用 的 转换 算 子 操作 的 API。 

表 3-1 常用 的 转换 算 子 API 


转换 算 子 相关 说 明 
filter(fune) 筛选 出 满足 函数 func 的 元 素 ,并 返回 一 个 新 的 数据 集 
map(fune) 将 每 个 元 素 传递 到 函数 func 中 ,返回 的 结果 是 一 个 新 的 数据 集 
flatMap(func) 与 map() 相 似 ,但 是 每 个 输入 的 元 素 都 可 以 映射 到 0 或 者 多 个 输出 结果 
De 应 用 于 (Key,Value) 键 值 对 的 数据 集 时 ,返回 一 个 新 的 (Key, Iterable 一 Value 二 ) 
BOM 形式 的 数据 集 

etcevChny 应 用 于 (Key, Value) 键 值 对 的 数据 集 时 ,返回 一 个 新 的 (Key, Value) 形 式 的 数据 
Te ye une | 集 。 其 中 ,每 个 Value 值 是 将 每 个 Key 键 传递 到 函数 func 中 进行 聚合 后 的 结果 


下 面 ,结合 具体 的 示例 对 这 些 转 换算 子 API 进行 详细 讲解 。 
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1. filter(func) 


filterCfunc) 操 作 会 筛选 出 满足 函数 func 的 元 素 , 并 返回 一 个 新 的 数据 集 。 假 设 , 有 一 
个 文件 test. txt( 内 容 如 文件 3-1 所 示 ) , 接 下 来 ,通过 一 张 图 来 描述 如 何 通过 filter 算 子 操作 
筛选 出 包含 单词 spark 的 元 素 ,具体 过 程 如 图 3-2 所 示 。 


test. txt RDD (lines) RDD (linesWithSpark) 


| hadoop spark | { [ehadoon spark” 


| iteast heima | “itcast heima” 


textFil ] ines- fi Pp ms | 
| ole monk 人 le pl es iltor(), sacra pnt 
| spark itcast | 


litcast hadoop! 
! 


“spark itcast” 


ll 
spark itcast” | 
U 


“itcast hadoop” 


、 二 


图 3-2 filter 算 子 操作 


在 图 3-2 中 ,通过 从 test. txt 文件 中 加 载 数据 的 方式 创建 RDD, 然 后 通过 filter 操作 筛 
选 出 满足 条 件 的 元 素 , 这 些 元 素 组 成 的 集合 是 一 个 新 的 RDD。 接 下 来 ,通过 代码 来 进行 演 
示 , 具 体 代码 如 下 : 


scala>val lines =sc.textFile("file:///export/data/test .txt") 
lines: org.apache.spark.rdd.RDD[ string] =file:///export/data/test .txt 
MapPartitionsRDD[1] at textFile at <console> :24 
scala>val linesWithspark =lines.filter (line =>line.contains ("spark")) 
linesWithspark: org.apache.spark.rdd.RDD[ String] =MapPartitionsRDD[2] at 
filter at <console> :25 


在 上 述 代码 中 ,filter() 输 入 的 参数 line 三 二 line. contains("spark") 是 一 个 匿名 函数 ， 
其 含义 是 依次 取出 lines 这 个 RDD 中 的 每 一 个 元 素 , 对 于 当前 取 到 的 元 素 , 把 它 赋 值 给 匿名 
函数 中 的 line 变量 。 若 line 中 包含 spark 单词 ,就 把 这 个 元 素 加 入 到 RDD( 即 
linesWithSpark) 中 ,否则 就 丢弃 该 元 素 。 


2. map(func) 


map(func) 操 作 将 每 个 元 素 传递 到 函数 func 中 ,并 将 结果 返回 为 一 个 新 的 数据 集 。 假 
设 , 有 一 个 文件 test. txt( 内 容 如 文件 3-1 所 示 ) , 接 下 来 ,通过 一 张 图 来 描述 如 何 通过 map 
算 子 操作 把 文件 内 容 拆 分 成 一 个 个 的 单词 并 封装 在 数组 对 象 中 ,具体 过 程 如 图 3-3 所 示 。 


test. txt RDD (lines) RDD (words) 


有 hadoop spark | | [hadoop spark” Array(“hadoop”，“spark”) 
| itcast heina | 1 [itcast heiaa™”| | Array(“itcast”，“heima”) 
| scala spark LEc-tertFileO [Fnis spark”| | Lines-map() ,| Rrray( rscaln”, sspark™) 


| spark itcast 


liteast hadoop | nt | 


1 
“spark itcast 1|LaArray(“spark”，“itcast”) 
1 


Ve 


1 
1 
ee 本 上 
Array(“itcast hadoop™ )] | 
a \ Mp 站 了 op” 


图 3-3 map 算 子 操作 


在 图 3-3 中 ,通过 从 test. txt 文件 中 加 载 数据 的 方式 创建 RDD, 然 后 通过 map 操作 将 


文件 的 每 一 行内 容 都 拆 分 成 一 个 个 的 单词 元 素 , 这 些 元 素 组 成 的 集合 是 一 个 新 的 RDD。 接 


权 


下 来 ,通过 代码 来 进行 演示 ,具体 代码 如 下 : 
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scala>val lines =S5c.textFile("file:///export/data/test.txt") 
lines: org.apache.spark .rdd.RDD[ string] =file:///export/data/test.txt 


scala>val words =lines.map (line =>1line.split (" ")) 
words: org.apache.spark.rdd.RDD[Array[ string]] =MapPartitionsRDD[13] at 
map at <console> :25 


上 述 代码 中 ,lines. map(line 一 二 line. split("")) 含 义 是 依次 取出 lines 这 个 RDD 中 
的 每 个 元 素 , 对 于 当前 取 到 的 元 素 ,把 它 赋值 给 匿名 函数 中 的 line 变量 。 由 于 line 是 一 行文 
本 ,如 hadoop spark， 一 行文 本 中 包含 多 个 单词 , 且 用 空格 进行 分 隔 ,通过 line split(" "区 
名 函数 ,将 文本 分 成 一 个 个 的 单词 , 拆 分 后 得 到 的 单词 都 被 封装 到 一 个 数组 对 象 中 ,成 为 新 


的 RDD( 即 words) 的 一 个 元 素 。 


3. flatMap (func) 


flatMap(func) 与 map(func) 相 似 ,但 是 每 个 输入 的 元 素 都 可 以 映射 到 0 或 者 多 个 输出 
的 结果 。 有 一 个 文件 test. txt( 内 容 如 文件 3-1 所 示 ) , 接 下 来 ,通过 一 张 图 来 描述 如 何 通过 


MapPartitionsRDDL4] at textFile at <console> :24 


flatMap 算 子 操作 把 文件 内 容 拆 分 成 一 个 个 的 单词 ,具体 过 程 如 图 3-4 所 示 。 


test. txt 
/-----— 
1 

1 
1 


hadoop spark ) 


itcast heina | 


| spark itcast 
eat hadoop | 


在 图 3-4 中 ,通过 从 test. txt 文件 中 加 载 数 据 的 方式 创建 RDD, 然 后 通过 flatMap 操作 
将 文件 的 每 一 行内 容 都 拆 分 成 一 个 个 的 单词 元 素 , 这 些 元 素 组 成 的 集合 是 一 个 新 的 RDD。 


Oe sc. textFile() 
1 


RDD (lines) 


PT 


和 
“hadoop spark”| | 


| 
1 
| 


“itcast heima” | 先 lines_map () 
操作 


“scala Spark”| 上 一 一 一 一 一 一 
| “spark itcast™ | 
|itcast hadoop”| | 
~ 一 一 一 一 一 pa 

lines-flatMap() 

RDD (words) 
-一 ——— ~ 

| | “hadoop™ “spark™ || 

| “itcast” “heina” | | 

| | “scala” 加 

| [sparkr “itcast ”| | 

| | “itcast” “hadoop” | | 
pr 2 


图 3-4 flatMap 算 子 操作 


接 下 来 ,通过 代码 来 进行 演示 ,具体 代码 如 下 : 


RDD (wordArray) 


Array( “hadoop” ， “spark”) 


Array (“itcast”，, “heina”) 


Array( “scala”，, “spark”) 


Array( “spark” , “itcast”) 


已 Array( “itcast”，, “hadoop” ) 


scala>val lines =sc.textFile ("file:///export/data/test.txt") 
lines: org.apache.spark .rdd.RDDLString] =file:///export/data/test .txt 
MapPartitionsRDD[5] at textFile at <console> :24 


scala>val words =lines.flatMap (line =>line.split (" ")) 
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words: org.apache.spark.rdd.RDD[Array[ string]] =MapPartitionsRDD[14] at 
map at <console> :25 


在 上 述 代码 中 ,lines. flatMap(line 一 二 line. split("")) 等 价 于 先 执行 lines. map(line 
二 之 line. split("") ) 操 作 ( 请 参考 map(func) 操 作 ) ,再 执行 flat() 操 作 ( 即 扁平 化 操作 ) ,把 
wordArray 中 的 每 个 RDD 都 扁平 成 多 个 元 素 ,被 扁平 后 得 到 的 元 素 构成 一 个 新 的 RDD( 即 


words) 。 
4. groupByKey() 


groupByKey() 主 要 用 于 (Key,Value) 键 值 对 的 数据 集 , 将 具有 相同 Key 的 Value 进行 
分 组 ,会 返回 一 个 新 的 (Key',Iterable) 形 式 的 数据 集 。 同 样 以 文件 test. txt( 内 容 如 文件 3-1 
所 示 ) 为 例 , 接 下 来 ,通过 一 张 图 来 描述 如 何 通过 groupByKey 算 子 操作 将 文件 内 容 中 的 所 
有 单词 进行 分 组 ,具体 过 程 如 图 3-5 所 示 。 


RDD (words) 

ed | 、 RDD (group¥ords) 

| |(“hadoop” ,1) Cd ie ee ee ee in td A i \ 
| [Ce [Cheia,D || 1 (hadoop™, (1,1)) (“spark™, (1,1,1)) || 
| | words. groupByKey() | | 
| |(“scala”，1) (“spark” ,1) | 上 |(“itcast”, (1 1,1)) (“heina” ,1) 1 
| [Ceapark" 0 ] [CiteastroD] | Csscalan 1) | 
| [Csitcast 1) Ciniow "si EE 
Ds pa 


图 3-5 groupByKey 算 子 操作 


在 图 3-5 中 ,通过 groupByKey 操作 把 (Key,Value) 键 值 对 类 型 的 RDD 按 单词 出 现 的 
次 数 进行 分 组 ,这 些 元 素 组 成 的 集合 是 一 个 新 的 RDD。 接 下 来 ,通过 代码 来 进行 演示 ,具体 
代码 如 下 : 


scala>val lines =sc.textFile ("file:///export/data/test .txt") 
lines: org.apache.spark .rdd.RDD[ string] =file:///export/data/test.txt 

MapPartitionsRDD[6] at textFile at <console> :24 
scala>val words=lines.flatMap (line=>line.split (" ")) .map(word=> (word,1)) 
words: org.apache.spark.rdd.RDD[ (string, Int)] =MapPartitionsRDD[15] at 

map at <console> :25 
scala>val groupWords=words .groupByKey () 
groupWords: org.apache.spark.rdd.RDD[ (string, Iterable[Int])]=ShuffledRDD[16] 
at groupByKey at <console> :25 


上 述 代 码 中 ,words. groupByKey() 操 作 执 行 后 ,RDD 中 所 有 的 Key 相同 的 Value 都 被 
合并 到 一 起 。 例 如 , ("spark",1)、("spark",1)、("spark",1) 这 3 个 键 值 对 的 Key 都 是 
spark, 合 并 后 得 到 新 的 键 值 对 ("spark",(1,1,1))。 


5. reduceByKey (func) 


reduceByKey() 主 要 用 于 (Key, Value) 键 值 对 的 数据 集 , 返 回 的 是 一 个 新 的 (Key， 
Value) 形 式 的 数据 集 ,该 数据 集 是 每 个 Key 传递 给 函数 func 进行 聚合 运算 后 得 到 的 结果 。 
同样 以 文件 test. txt (内 容 如 文件 3-1 所 示 ) 为 例 , 接 下 来 ,通过 一 张 图 来 描述 如 何 通 过 
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reduceByKey 算 子 操作 统计 单词 出 现 的 次 数 ,具体 操作 如 图 3-6 所 示 。 


RDD (words) 


(“hadoop” , 1) 


(“itcast”,1) 


(“scala”，, 1) 


(“spark”, 1) 


(“itcast”,1) 


0 ph RDD (reduceWords) 
i 
a | f 关 = = 日 
(heina” ,1) | lvoras reduceBygeyO1 (hadoop” ,2) (“spark” ,3) ! 
(“spark” ,Do [(*itcast” , 3) (heina”,1) || 
(“itcast”, 1) | | (“scala”, 1) 1 
(“hadoop” ,1)| | 人 


Ry 


图 3-6 reduceByKey() 算 子 操作 


在 图 3-6 中 ,通过 reduceByKey 操作 把 (Key,Value) 键 值 对 类 型 的 RDD, 按 单词 Key 出 
现 的 次 数 Value 进行 聚合 ,这 些 元 素 组 成 的 集合 是 一 个 新 的 RDD。 接 下 来 ,通过 代码 来 进 
行 演示 ,具体 代码 如 下 : 


scala>val lines =Ssc.textFile("file:///export/data/test.txt") 
lines: org.apache.spark.rdd.RDD[ string] =file:///export/data/test .txt 


MapPartitionsRDD[7] at textFile at <console> :24 


scala>val words=1lines.flatMap (line=>1line.split("")) .map (word=> (word,1)) 


words: org.apache.spark.rdd.RDD[ (string, Int)] =MapPartitionsRDDL16] at 


map at <console> :25 


scala>val reduceWords=words.reduceByKey ((a,b)=>a+b) 
reduceWords: org.apache.spark.rdd.RDD[ (string, Int)] =ShuffledRDDL17] at 


reduceByKey at <console> :25 


上 述 代码 中 ,执行 words. reduceByKey((a,b) 一 二 a 十 b) 操 作 , 共 分 为 两 个 步骤 ,分 别 是 
先 执行 reduceByKey() 操 作 , 将 所 有 Key 相同 的 Value 值 合并 到 一 起 ,生成 一 个 新 的 键 值 对 ,如 
("spark",(1,1,1)); 然 后 执行 函数 func 的 操作 ,即使 用 (a,b) 二 二 a 十 b 函数 把 (1,1,1) 进 行 聚 
合 求 和 ,得 到 最 终 的 结果 , 即 ("spark" ,3) 。 


3.3.2 行动 算 子 


行动 算 子 主要 是 将 在 数据 集 上 运行 计算 后 的 数值 返回 到 驱动 程序 ,从 而 触发 真正 的 计 
算 。 下面 列举 一 些 常 用 的 行动 算 子 API, 如 表 3-2 所 示 。 


表 3-2 常用 的 行动 算 子 API 


行动 算 子 相关 说 明 
count() 返回 数据 集中 的 元 素 个 数 
first() 返回 数组 的 第 一 个 元 素 
take(n) 以 数组 的 形式 返回 数组 集中 的 前 个 元 素 
reduce(func) 通过 函数 func( 输 入 两 个 参数 并 返回 一 个 值 ) 聚 合 数据 集中 的 元 素 
collect() 以 数组 的 形式 返回 数据 集中 的 所 有 元 素 
foreach(func) 将 数据 集中 的 每 个 元 素 传递 到 函数 func 中 运行 


下 面 ,结合 具体 的 示例 对 这 些 行 动 算 子 API 进行 详细 讲解 。 
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1. count() 


count() 主 要 用 于 返回 数据 集中 的 元 素 个 数 。 假 设 , 现 有 一 个 arrRdd, 如 果 要 统计 
arrRdd 元 素 的 个 数 ,示例 代码 如 下 : 


上 述 代码 中 ,第 1 行 代码 创建 了 一 个 RDD 对 象 , 当 arrRdd 调用 count() 操 作 后 ,返回 的 
结果 是 5, 说 明成 功 获取 到 了 RDD 数据 集 的 元 素 个 数 。 值 得 一 提 的 是 ,可 以 将 第 一 行 代码 
分 解 成 下 面 两 行 代码 ,具体 如 下 : 


2. first() 


first() 主 要 用 于 返回 数组 的 第 一 个 元 素 。 现 有 一 个 arrRdd, 如 果 要 获取 arrRdd 中 第 一 
个 元 素 ,示例 代码 如 下 : 


从 上 述 结果 可 以 看 出 , 当 执 行 arrRdd. first() 操 作 后 返回 的 结果 是 1, 说 明成 功 获取 到 
了 RDD 数据 集 的 第 1 个 元 素 。 


3. take(n) 


take() 主 要 用 于 以 数组 的 形式 返回 数组 集中 的 前 个 元 素 。 现 有 一 个 arrRdd, 如 果 要 
获取 arrRdd 中 的 前 3 个 元 素 , 示 例 代码 如 下 : 


从 上 述 代码 可 以 看 出 ,执行 arrRdd. take(3) 操 作 后 返回 的 结果 是 Array(1,2,3) ,说明 
成 功 获取 到 了 RDD 数据 集 的 前 3 个 元 素 。 
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4. reduce(func) 


reduce() 主 要 用 于 通过 函数 func( 输 入 两 个 参数 并 返回 一 个 值 ) 聚 合 数据 集中 的 元 素 。 
现 有 一 个 arrRdd, 如 果 要 对 arrRdd 中 的 元 素 进行 聚合 .示例 代码 如 下 : 


在 上 述 代码 中 ,执行 arrRdd. reduce((a,b) 王 二 a 十 b) 操 作 后 返回 的 结果 是 15, 说 明成 
功 的 将 RDD 数据 集中 的 所 有 元 素 进行 求 和 ,结果 为 15。 


5. collect() 


collect() 主 要 用 于 以 数组 的 形式 返回 数据 集中 的 所 有 元 素 。 现 有 一 个 arrRdd, 如 果 和 希 
望 arrRdd 中 的 元 素 以 数组 的 形式 输出 ,示例 代码 如 下 : 


在 上 述 代码 中 ,执行 arrRdd. collect() 操 作 后 返回 的 结果 是 Array(1,2,3,4,5) ,说 明成 
功 地 将 RDD 数据 集中 的 元 素 以 数组 的 形式 输出 。 


6. foreach(func) 


foreach( ) 主 要 用 于 将 数据 集中 的 每 个 元 素 传递 到 函数 func 中 运行 。 现 有 一 个 
arrRdd, 如 果 希 望 遍历 输出 arrRdd 中 的 元 素 ,示例 代码 如 下 : 


在 上 述 代 码 中 ,foreach(x 一 二 println(x)) 的 含义 是 依次 遍历 arrRdd 中 的 每 一 个 元 
素 , 把 当前 遍历 的 元 素 赋值 给 变量 x, 并且 通过 println(Cx) 打 印 出 xz 的 值 。 执 行 arrRdd. 
foreach() 操 作 后 ,arrRdd 中 的 元 素 被 依次 输出 了 ( 即 RDD 数据 集中 所 有 的 元 素 被 遍历 输 
出 )。 这 里 的 arrRdd. foreach(x 一 二 println(x)) 可 以 简写 为 arrRdd. foreach(println) 。 
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3.3.3 编写 WordCount 词 频 统计 案例 


在 Linux 本 地 系统 的 /export/data 目录 下 ,有 一 个 test. txt 文件 ,文件 里 面 有 多 行文 
本 ,每 行文 本 都 是 由 2 个 单词 构成 ,并 且 单 词 之 间 都 是 用 空格 分 隔 。 接 下 来 需要 通过 RDD 
统计 每 个 单词 出 现 的 次 数 ( 即 词 频 ) ,具体 操作 过 程 如 图 3-7 所 示 。 


test.txt RDD (lines) RDD (words) 
Pi ee | dt ht ~、 
| hadoop spark | g@ Ehadoop spark”™ | 
呈 4 输入 算 子 “| 看 日 转换 算 子 
itcast heina | sc_textFile() ILiteast beina”| | oi 
| scala spark [—————— “scala spark” spark™ 


| spark itcast 


“spark itcast | | 
liteast hadoop | 


“itcast” 
“hadoop” 


itcast hadoop” 


ER 人 
1 hadoop" ,2) i 1[C“hadoop”",1)]| [|(“spark" ,1) || 
1 (“spark”™ ,3) | || (“hadoop” ,2) || (“spark”,3) || | (“itcast”,1)| |(“heina” ,1) | 
I( “itcast”» 3 一 《=“itcast”，3) | (“heina” ,1) ;一 一 一 一 一 一 (“scala”, 1) |(“spark"” ,1) || 
| Cheina” ,1) CEs) 1 和 |[C pan", | [Citeast™, | 
人 
duceB wb)=>a+rb)l |(“itcast”,1)| |(“hadoop”,1) 
一 行动 算 子 RDD (acacoat) 一 J 
foreach (print1n) 


RDD (wordAndOne ) 


图 3-7 词 频 统 计 的 操作 


在 图 3-7 中 ,Spark 通过 输入 算 子 的 操作 读 取 文件 来 创建 RDD, 然 后 通过 转换 算 子 和 行 
动 算 子 操作 将 文件 中 的 所 有 单词 进行 了 词 频 统 计 。 接 下 来 ,通过 代码 来 进行 演示 ,具体 代码 
如 下 : 


scala>val lines =sc.textFile ("file:///export/data/test .txt") 
lines: org.apache.spark.rdd.RDD[ string] =file:///export/data/test.txt 
MapPpartitionsRDD[8] at textFile at <console> :24 
scala>val words=lines.flatMap (line=>line.split (" ")) 
words: org.apache.spark.rdd.RDD[ string] =MapPartitionsRDD[20] at flatMap 
at <console> :25 
scala>val wordAndone =words .map (word=> (word,1)) 
wordAndone: org.apache.spark.rdd.RDD[ (string, Int)] =MapPartitionsRDD[21] 
at map at <console> :25 
scala>val wordCount =wordAndone.reduceByKey ( (a,b)=>a+b) 
wordCount: org.apache.spark.rdd.RDD[ (string, Int)] =ShuffledRDD[22] at 
reduceByKey at <console> :25 

scala>wordCount .foreach (println) 

(spark, 3) 

(hadoop, 2) 

(scala,1) 

(itcast, 3) 

(heima, 1) 


上 述 代 码 中 ,执行 wordCount. foreach (println) 操 作 后 返回 的 结果 是 (spark,3)、 
(hadoop,2)、(scala,1)、(itcast,3)、(heima,1) ,说 明 已 经 实现 了 对 文件 test. txt 的 词 频 统计 
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操作 。 
3.4 RDD 的 分 区 


在 分 布 式 程序 中 ,网 络 通信 的 开销 是 很 大 的 ,因此 控制 数据 分 布 以 获得 最 少 的 网 络 传输 
开销 可 以 极 大 地 提升 整体 性 能 ,Spark 程序 可 以 通过 控制 RDD 分 区 方式 来 减少 通信 开销 。 
Spark 中 所 有 的 RDD 都 可 以 进行 分 区 ,系统 会 根据 一 个 针对 键 的 函数 对 元 素 进行 分 区 。 虽 然 
Spark 不 能 控制 每 个 键 具体 划分 到 哪个 节点 上 ,但 是 可 以 确保 相同 的 键 出 现在 同一 个 分 区 上 。 

RDD 的 分 区 原则 是 分 区 的 个 数 尽量 等 于 集群 中 的 CPU 核心 (Core) 数 目 。 对 于 不 同 的 
Spark 部 署 模式 而 言 ,都 可 以 通过 设置 spark. default. parallelism 这 个 参数 值 来 配置 默认 的 
分 区 数目 。 一 般 而 言 ,各 种 模式 下 的 默认 分 区 数目 如 下 。 

(1) Local 模式 : 默认 为 本 地 机 器 的 CPU 数目 ,车 设置 了 localLN], 则 默认 为 N。 

(2) Standalone 或 者 Yarn 模式 : 在 “集群 中 所 有 CPU 核 数 总 和 ”和 “2” 这 两 者 中 取 较 
大 值 作为 默认 值 。 

(3) Mesos 模式 : 默认 的 分 区 数 是 8。 

Spark 框架 为 RDD 提供 了 两 种 分 区 方式 ,分 别 是 哈 希 分 区 (HashPartitioner) 和 范围 分 
区 (RangePartitioner)。 其 中 , 哈 希 分 区 是 根据 喻 希 值 进行 分 区 ;范围 分 区 是 将 一 定 范围 的 
数据 映射 到 一 个 分 区 中 。 这 两 种 分 区 方式 已 经 可 以 满足 大 多 数 应 用 场景 的 需求 。 与 此 同 
时 ,Spark 也 支持 自 定义 分 区 方式 , 即 通过 一 个 自 定义 的 Partitioner 对 象 来 控制 RDD 的 分 
区 ,从 而 进一步 减少 通信 开销 。 需 要 注意 的 是 ,RDD 的 分 区 函数 是 针对 (Key,Value) 类 型 
的 RDD, 分 区 函数 根据 Key 对 RDD 元 素 进行 分 区 。 因 此 , 当 需 要 对 一 些 非 (Key,Value) 类 
型 的 RDD 进行 自 定义 分 区 时 ,需要 先 把 RDD 元 素 转换 为 (Key,Value) 类 型 ,再 通过 分 区 表 
数 进行 分 区 操作 。 

如 果 想 要 实现 自 定义 分 区 ,就 需要 定义 一 个 类 ,使 得 这 个 自 定义 的 类 继承 org. apache. 
spark. Partitioner 类 ,并 实现 其 中 的 3 个 方法 ,具体 如 下 。 

(1) def numPartitions:Int: 用 于 返回 创建 的 分 区 个 数 。 

(2) def getPartition(Key:Any): 用 于 对 输入 的 Key 做 处 理 , 并 返回 该 Key 的 分 区 ID， 
分 区 ID 的 范围 是 0~numPartitions 一 1。 

(3) equals (other: Any): 用 于 Spark 判断 自 定义 的 Partitioner 对 象 和 其 他 的 
Partitioner 对 象 是 否 相 同 , 从 而 判断 两 个 RDD 的 分 区 方式 是 否 相 同 。 其 中 ,equals() 方 法 
中 的 参数 other 表示 其 他 的 Partitioner 对 象 ,该 方法 的 返回 值 是 一 个 Boolean 类 型 , 当 返 回 
值 为 true 时 表示 自 定义 的 Partitioner 对 象 和 其 他 Partitioner 对 象 相同 , 则 两 个 RDD 的 分 
区 方式 也 是 相同 的 ;反之 , 自 定义 的 Partitioner 对 象 和 其 他 Partitioner 对 象 不 相同 , 则 两 个 
RDD 的 分 区 方式 也 不 相同 。 


3.5 RDD 的 依赖 关系 


在 Spark 中 ,不 同 的 RDD 之 间 具 有 依赖 的 关系 。RDD 与 它 所 依赖 的 RDD 的 依赖 关系 
有 两 种 类 型 ,分别 是 罕 依 赖 (narrow dependency) 和 宽 依赖 (wide dependency) 。 
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窗 依 赖 是 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 使 用 , 即 
OneToOneDependencies。 窄 依赖 的 表现 一 般 分 为 两 类 : 第 一 类 表现 为 一 个 父 RDD 的 分 区 
对 应 于 一 个 子 RDD 的 分 区 ;第 二 类 表现 为 多 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 。 
也 就 是 说 ,一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 分 区 。 为 了 便于 理解 ， 
通常 把 窄 依赖 形象 地 比喻 为 独生子 女 。 当 RDD 执行 map filter、union 和 join 操作 时 ,都 会 
产生 窄 依赖 ,如 图 3-8 所 示 。 


map,filter 


union 


join with inputs co-partitioned 


图 3-8 窄 依 赖 


从 图 3-8 可 以 看 出 ,RDD 进行 map,filter 和 union 算 子 操作 时 ,是 属于 罕 依 赖 的 第 一 类 
表现 ;而 RDD 进行 join 算 子 操作 (对 输入 进行 协同 划分 ) 时 ,是 属于 窄 依赖 表现 的 第 二 类 。 
这 里 的 输入 协同 划分 是 指 多 个 父 RDD 的 某 一 个 分 区 的 所 有 Key, 被 划分 到 子 RDD 的 同一 
分 区 ,而 不 是 指 同一 个 父 RDD 的 某 一 个 分 区 ,被 划分 到 子 RDD 的 两 个 分 区 中 。 当 子 RDD 
进行 算 子 操作 ,因为 某 个 分 区 操作 失败 导致 数据 丢失 时 ,只 需要 重新 对 父 RDD 中 对 应 的 分 
区 (与 子 RDD 相对 应 的 分 区 ) 进 行 算 子 操作 即 可 恢复 数据 。 

宽 依 赖 是 指 子 RDD 的 每 一 个 分 区 都 会 使 用 所 有 父 RDD 的 所 有 分 区 或 多 个 分 区 , 即 
OneToManyDependecies。 为 了 便于 理解 ,通常 把 宽 依赖 形象 地 比喻 为 超生 。 当 RDD 进行 
groupByKey 和 join 操作 时 ,会 产生 宽 依赖 ,如 图 3-9 所 示 。 

从 图 3-9 可 以 看 出 , 父 RDD 进行 groupByKey 和 join( 输 入 未 协同 划分 ) 算 子 操作 时 , 子 
RDD 的 每 一 个 分 区 都 会 依赖 于 所 有 父 RDD 的 所 有 分 区 。 当 子 RDD 进行 算 子 操作 ,因为 某 
个 分 区 操作 失败 导致 数据 丢失 时 , 则 需要 重新 对 父 RDD 中 的 所 有 分 区 进行 算 子 操作 才能 
恢复 数据 。 

需要 注意 的 是 ,join 算 子 操作 既 可 以 属于 窄 依赖 ,也 可 以 属于 宽 依 赖 。 当 join 算 子 操作 
后 ,分 区 数量 没有 变化 则 为 窄 依赖 (如 join with inputs co-partitioned ,输入 协同 划分 ); 当 
join 算 子 操作 后 ,分 区 数量 发 生变 化 则 为 宽 依赖 (如 join with inputs not co-partitioned, 输 
入 非 协同 划分 )。 
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groupByKey 
join with inputs not co-partitioned 


图 3-9 宽 依 赖 


3.6 RDD 机 制 


Spark 为 RDD 提供 了 两 个 重要 的 机 制 , 分 别 是 持久 化 机 制 ( 即 缓存 机 制 ) 和 容错 机 制 。 
接 下 来 ,本 节 将 针对 持久 化 机 制 和 容错 机 制 进行 详细 介绍 。 


3.6.1 持久 化 机 制 


在 Spark 中 ,RDD 是 采用 惰性 求 值 , 即 每 次 调用 行动 算 子 操作 ,都 会 从 头 开始 计算 。 然 
而 ,每 次 调用 行动 算 子 操作 ,都 会 触发 一 次 从 头 开始 的 计算 ,这 对 于 迭代 计算 来 说 ,代价 是 很 
大 的 ,因为 迭代 计算 经 常 需要 多 次 重复 地 使 用 同一 组 数据 集 , 所 以 ,为 了 避免 重复 计算 的 开 
销 , 可 以 让 Spark 对 数据 集 进行 持久 化 。 

通常 情况 下 ,一 个 RDD 是 由 多 个 分 区 组 成 的 ,RDD 中 的 数据 分 布 在 多 个 节点 中 ,因此 ， 
当 持 久 化 某 个 RDD 时 ,每 一 个 节点 都 将 把 计算 分 区 的 结果 保存 在 内 存 中 ,车 对 该 RDD 或 
衍生 出 的 RDD 进行 其 他 行动 算 子 操作 时 , 则 不 需要 重新 计算 ,直接 去 取 各 个 分 区 保存 的 数 
据 即 可 ,这 使 得 后 续 的 行动 算 子 操作 速度 更 快 (通常 超过 10 倍 ) ,并 且 缓 存 是 Spark 构建 迭 
代 式 算法 和 快速 交互 式 查 询 的 关键 。 

RDD 的 持久 化 操作 有 两 种 方法 ,分别 是 cache() 方 法 和 persist() 方 法 。 每 一 个 持久 化 
的 RDD 都 可 以 使 用 不 同 的 存储 级 别 存储 ,从 而 允许 持久 化 数据 集 在 硬盘 或 者 内 存 中 作为 
序列 化 的 Java 对 象 存储 ,甚至 可 以 跨 节点 复制 。 

persist() 方 法 的 存储 级 别 是 通过 StorageLevel 对 象 (Scala、Java、Python) 设 置 的 。 

cache() 方 法 的 存储 级 别 是 使 用 默认 的 存储 级 别 ( 即 StorageLevel. MEMORY_ONLY 
(将 反 序 列 化 的 对 象 存 人 内 存 ))。 接 下 来 ,通过 表 3-3 介绍 持久 化 RDD 的 存储 级 别 。 


表 3-3 持久 化 RDD 的 存储 级 别 


存储 级 别 相关 说 明 
默认 存储 级 别 。 将 RDD 作为 反 序列 化 的 Java 对 象 ,缓存 到 JVM 中 , 若 
MEMORY_ONLY 内 存放 不 下 (内 存 已 满 情 况 ), 则 某 些 分 区 将 不 会 被 缓存 ,并 且 每 次 需要 
时 都 会 重新 计算 


将 RDD 作为 反 序列 化 的 Java 对 象 ,缓存 到 JVM 中 , 若 内 存放 不 下 (内 


MEMOBRY AND. DISK 存 已 满 情况 ) , 则 将 剩余 分 区 存储 到 磁盘 上 ,并 在 需要 时 从 磁盘 读 取 
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续 表 


存储 级 别 相关 说 明 


MEMORY_ONLY_SER 


将 RDD 作为 序列 化 的 Java 对 象 (每 个 分 区 序列 化 为 一 个 字 节 数组 ) , 比 
反 序 列 化 的 Java 对 象 节省 空间 ,但 读 取 时 ,更 占 CPU 


MEMORY_AND_DISK_SER 


与 MEMORY_ONLY_SER 类 似 ,但 是 当 内 存放 不 下 时 则 溢出 到 磁盘 ， 


而 不 是 每 次 需要 时 重新 计算 它们 
DISK_ONLY 仅 将 RDD 分 区 全 部 存储 到 磁盘 上 
MEMORY_ONLY _2 与 上 面 的 级 别 相同 。 若 加 上 后 级 _2, 代 表 的 是 将 每 个 持久 化 的 数据 都 


MEMORY_AND _DISK_2 复制 一 份 副 本 ,并 将 副本 保存 到 其 他 节点 上 


OFF_HEAP( 实 验 性 ) 


与 MEMORY_ONLY_SER 类 似 , 但 将 数据 存储 在 堆 外 内 存 中 (这 需要 
启用 堆 外 内 存 ) 


在 表 3-3 中 ,列举 了 持久 化 RDD 的 存储 级 别 ,可 以 在 RDD 进行 第 一 次 算 子 操作 时 , 根 
据 自己 的 需求 选择 对 应 的 存储 级 别 。 

为 了 大 家 更 好 地 理解 , 接 下 来 ,通过 代码 演示 如 何 使 用 persist() 方 法 和 cache() 方 法 对 
RDD 进行 持久 化 。 


1. 使 用 persist() 方 法 对 RDD 进行 持久 化 


定义 一 个 列表 list, 通 过 该 列表 创建 一 个 RDD, 然 后 通过 persist 持久 化 操作 和 算 子 操 
作 统 计 RDD 中 的 元 素 个 数 以 及 打印 输出 RDD 中 的 所 有 元 素 。 具 体 代码 如 下 : 


scala> import org.apache.spark.storage.StorageLevel 

import org.apache.spark.storage.StorageLevel 

scala>val list =List ("hadoop", "spark", "hive") 

list: List[string] =List (hadoop, spark, hive) 

scala>val listRDD =sc.parallelize (list) 

1istRDD: org.apache.spark.rdd.RDD[ string] =ParallelCollectionRDD[0] at 
parallelize at <console> :27 

scala>1istRDD.persist (storageLevel .DISK ONLY) 

resl: 1istRDD.type =ParallelCollectionRDD[0] at parallelize at <console> :27 

scala>println (listRDD.count ()) 

a 

scala>println (listRDD.collect () .mkstring(",")) 

hadoop, spark,hive 


上 述 代码 中 ,第 1 行 代码 导入 StorageLevel 对 象 的 包 ; 第 3 行 代码 定义 了 一 个 列表 list; 
第 5 行 代码 执行 sc. parallelize(list) 操 作 , 创 建 了 一 个 RDD, 即 listRDD; 第 8 行 代 码 添加 了 
persist() 方 法 ,用 于 持久 化 RDD, 减 少 1/O 操作 ,提高 计算 效率 ;第 10 行 代码 执行 listRDD. 
count() 行 动 算 子 操作 ,将 统计 listRDD 中 元 素 的 个 数 ; 第 12 行 代码 执行 listRDD. collect() 
行动 算 子 操作 和 mkString(",") 操 作 , 将 listRDD 中 的 所 有 元 素 进行 打印 输出 ,并 且 以 逗号 
为 分 隔 符 。 

需要 注意 的 是 , 当 程序 执行 到 第 8 行 代码 时 ,并 不 会 持久 化 listRDD, 因 为 listRDD 还 没 
有 被 真正 计算 ; 当 执 行 第 10 行 代 码 时 ,listRDD 才 会 进行 第 一 次 行动 算 子 操作 ,触发 真正 的 
从 头 到 尾 的 计算 ,这 时 listRDD. persist() 方 法 才 会 被 真正 执行 ,把 listRDD 持久 化 到 磁盘 
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中 ; 当 执行 到 第 12 行 代码 时 ,进行 第 二 次 行动 算 子 操作 ,但 不 触发 从 头 到 尾 的 计算 ,只 需 使 
用 已 经 进行 持久 化 的 listRDD 来 进行 计算 。 


2. 使 用 cache() 方 法 对 RDD 进行 持久 化 


定义 一 个 列表 list, 通 过 该 列表 创建 一 个 RDD, 然 后 通过 cache 持久 化 操作 和 算 子 操作 
统计 RDD 中 的 元 素 个 数 以 及 打印 输出 RDD 中 的 所 有 元 素 。 具 体 代码 如 下 : 


1 scala>val list=List ("hadoop","spark", "hive") 

2 list: List[string] =List (hadoop, spark, hive) 

3 scala>val listRDD=sc.parallelize (list) 

4 listRDD: org.apache.spark.rdd.RDD[ string] =ParallelCollectionRDD[0] at 
5 parallelize at <console> :26 
6 scala>listRDD.cache() 

7 res2: listRDD.type =ParallelCollectionRDD[1] at parallelize at <console> :26 
8 scala>println(listRDD.count()) 

0 

10 scala>println(listRDD.collect () .mkstring(",")) 

11 hadoop,spark,hive 


上 述 代码 中 ,第 6 行 代码 对 listRDD 进行 持久 化 操作 , 即 添加 cache() 方 法 ,用 于 持久 化 
RDD ,减少 1/O 操作 ,提高 计算 效率 。 然 而 ,使 用 cache() 方 法 进行 持久 化 操作 ,底层 是 调用 
了 persist(MEMORY_ONLY) 方 法 ,用 来 对 RDD 进行 持久 化 。 当 程序 执行 到 第 6 行 代码 
时 ,并 不 会 持久 化 listRDD, 因 为 listRDD 还 没有 被 真正 计算 ; 当 程 序 执行 第 8 行 代码 时 ， 
listRDD 才 会 进行 第 一 次 行动 算 子 操作 ,触发 真正 的 从 头 到 尾 的 计算 ,这 时 listRDD, cache( ) 方 
法 才 会 被 真正 执行 ,把 listRDD 持久 化 到 内 存 中 ; 当 程 序 执行 到 第 10 行 代码 时 ,进行 第 二 次 
行动 算 子 操作 ,但 不 触发 从 头 到 尾 的 计算 ,只 需 使 用 已 经 持久 化 的 listRDD 来 进行 计算 。 


3.6.2 容错 机 制 


当 Spark 集群 中 的 某 一 个 节点 由 于 宕 机 导致 数据 丢失 ,可 以 通过 Spark 中 的 RDD 容错 
机 制 恢复 已 经 丢失 的 数据 。RDD 提供 了 两 种 故障 恢复 的 方式 ,分 别 是 血统 (lineage) 方 式 和 
设置 检查 点 (checkpoint) 方 式 。 下 面 就 来 介绍 这 两 种 方式 。 

血统 方式 ,主要 是 根据 RDD 之 间 的 依赖 关系 对 丢失 数据 的 RDD 进行 数据 恢复 。 如 果 
丢失 数据 的 子 RDD 在 进行 窒 依 赖 运 算 , 则 只 需要 把 丢失 数据 的 父 RDD 的 对 应 分 区 进行 重 
新 计算 即 可 ,不 需要 依赖 其 他 的 节点 ,并 且 在 计算 过 程 中 不 会 存在 宛 余 计算 ;车 丢失 数据 的 
子 RDD 进行 宽 依 赖 运算 , 则 需要 父 RDD 的 所 有 分 区 都 要 进行 从 头 到 尾 的 计算 ,在 计算 过 
程 中 会 存在 元 余 计 算 。 为 了 解决 宽 依 赖 运算 中 出 现 的 计算 完 余 问题 ,Spark 又 提供 了 另 一 
种 方式 进行 数据 容错 , 即 设置 检查 点 方式 。 

设置 检查 点 方式 ,本 质 上 是 将 RDD 写 入 磁盘 进行 存储 。 当 RDD 在 进行 宽 依赖 运算 
时 ,只 需要 在 中 间 阶 段 设置 一 个 检查 点 进行 容错 , 即 通 过 Spark 中 的 sparkContext 对 象 调 
用 setCheckpoint() 方 法 ,设置 一 个 容错 文件 系统 目录 (如 HDFS) 作 为 检查 点 checkpoint, 将 
checkpoint 的 数据 写 和 之 前 设置 的 容错 文件 系统 中 进行 高 可 用 的 持久 化 存储 ,若是 后 面 有 
节点 出 现 宕 机 导致 分 区 数据 丢失 , 则 可 以 从 作为 检查 点 的 RDD 开始 重新 计算 ,不 需要 进行 
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从 头 到 尾 的 计算 ,这 样 就 会 减少 开销 。 


3.7 Spark 的 任务 调度 


3.7.1 DAG 的 概念 


DAG(Directed Acyclic Graph, 有 向 无 环 图 ),Spark 中 的 RDD 通过 一 系列 的 转换 算 子 
操作 和 行动 算 子 操作 形成 了 一 个 DAG。DAG 
是 一 种 非常 重要 的 图 论 数 据 结构 。 如 果 一 个 有 
向 图 无 法 从 任意 顶点 出 发 经 过 若干 条 边 回 到 该 
点 , 则 这 个 图 就 是 有 向 无 环 图 ,具体 如 图 3-10 
所 示 。 
从 图 3-10 可 以 看 出 ,4 一 6 一 1>2 是 一 条 路 
径 ,4 一 6 一 5 也 是 一 条 路 径 , 并 且 图 中 不 存在 从 
国 240 BAG 寺 生起 环 略 顶点 经 过 若干 条 边 后 能 回 到 该 点 的 路 径 。 在 
Spark 中 ,有 向 无 环 图 的 连贯 关系 被 用 来 表达 
RDD 之 间 的 依赖 关系 。 其 中 ,顶点 表示 RDD 及 产生 该 RDD 的 操作 算 子 ,有 方向 的 边 表示 
算 子 之 间 的 相互 转化 。 
根据 RDD 之 间 依 赖 关系 的 不 同 可 以 将 DAG 划分 成 不 同 的 Stage( 调 度 阶段 )。 对 于 罕 
依赖 来 说 ,RDD 分 区 的 转换 处 理 是 在 一 个 线程 里 完成 的 ,所 以 窄 依赖 会 被 Spark 划分 到 同 
一 个 Stage 中 ;而 对 于 宽 依赖 来 说 ,由 于 有 Shuffle 的 存在 ,所 以 只 能 在 父 RDD 处 理 完成 后 ， 
下 一 个 Stage 才能 开始 接 下 来 的 计算 ,因此 宽 依赖 是 划分 Stage 的 依据 , 当 RDD 进行 转换 
操作 , 遇 到 宽 依赖 类 型 的 转换 操作 时 ,就 划 为 一 个 Stage。Stage 的 具体 划分 如 图 3-11 所 示 。 
在 图 3-11 中 , 创建 了 3 个 RDD 的 实例 A、C 以 及 E。 当 RDD 的 实例 A 进行 
groupByKey 转换 操作 生成 B 时 ,由 于 groupByKey 转换 操作 属于 宽 依赖 类 型 ,所 以 就 把 实 
例 A 划分 为 一 个 Stage, 如 Stagel; 当 实例 C 进行 map 转换 操作 生成 D, D 与 实例 下 进行 
union 转换 操作 生成 下 时 ,由 于 map 和 union 转换 操作 都 属于 窗 依 赖 类 型 ,因此 不 进行 
Stage 的 划分 ,而 是 将 C.D、E、F 加 入 到 同一 个 Stage 中 ;当下 与 B 进行 join 转换 操作 时 ,由 
于 这 时 的 join 操作 是 非 协同 划分 ,所 以 属于 宽 依赖 ,因此 会 划分 为 一 个 Stage, 如 Stage2; 剩 
下 的 B 和 G 被 划分 为 一 个 Stage, 如 Stage3。 


3.7.2 RDD 在 Spark 中 的 运行 流程 


下 面 ,通过 图 3-12 来 学 习 RDD 在 Spark 中 的 运行 流程 。 

在 图 3-12 中 ,Spark 的 任务 调度 流程 分 为 RDD Objects、DAGScheduler、TaskScheduler 
以 及 Worker 4 个 部 分 。 关 于 这 4 个 部 分 的 介绍 具体 如 下 。 

(1) RDD Objects: 当 RDD 对 象 创建 后 ,SparkContext 会 根据 RDD 对 象 构建 DAG 有 
向 无 环 图 ,然后 将 Task 提交 给 DAGScheduler。 

(2) DAGScheduler: 将 作业 的 DAG 划分 成 不 同 的 Stage, 每 个 Stage 都 是 TaskSet 任 
务 集合 ,并 以 TaskSet 为 单位 提交 给 TaskScheduler。 
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图 3-12 RDD 在 Spark 中 的 运行 流程 


(3) TaskScheduler: 通过 TaskSetManager 管理 Task ,并 通过 集群 中 的 资源 管理 器 
(Standalone 模式 下 是 Master, Yarn 模式 下 是 ResourceManager) 把 Task 发 给 集群 中 Worker 的 
Executor。 若 期 间 有 某 个 Task 失败 , 则 TaskScheduler 会 重 试 ; 若 TaskScheduler 发 现 某 个 
Task 一 直 没 有 和 运行 完成 , 则 有 可 能 在 空闲 的 机 器 上 启动 同一 个 Task ,哪个 Task 先 完成 就 用 哪 
个 Task 的 结果 。 但 是 ,无 论 Task 是 否 成 功 , TaskScheduler 都 会 向 DAGScheduler 汇报 当前 的 
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状态 ,若菜 个 Stage 运行 失败 , 则 TaskScheduler 会 通知 DAGScheduler 重新 提交 Task 。 需 要 注 
意 的 是 ,一 个 TaskScheduler 只 能 服务 一 个 SparkContext 对 象 。 

(4) Worker: Spark 集群 中 的 Worker 接收 到 Task 后 ,把 Task 运行 在 Executor 进程 
中 ,这 个 Task 就 相当 于 Executor 进程 中 的 一 个 线程 。 一 个 进程 中 可 以 有 多 个 线程 在 工作 ， 
从 而 可 以 处 理 多 个 数据 分 区 (如 运行 任务 . 读 取 或 者 存储 数据 ) 。 


3.8 本 章 小 结 


本 章 主要 介绍 RDD 及 RDD 编程 的 相关 知识 ,包括 RDD 创建 .RDD 的 处 理 ,RDD 的 分 
区 、RDD 的 依赖 关系 、RDD 的 容错 机 制 以 及 Spark 的 任务 调度 。 和 希望 读者 通过 本 章 的 学 
习 , 可 以 掌握 RDD 编程 ,因为 掌握 了 RDD, 可 以 帮助 读者 更 好 地 使 用 Spark 框架 解决 实际 
应 用 中 的 数据 分 析 问 题 。 


3.9 课 后 习题 


一 、 填 空 题 


1. RDD 是 的 一 个 抽象 概念 ,也 是 一 个 \ 并 行 的 数据 结构 。 
2， RDD 的 操作 主要 分 为 和 。 
3. RDD 的 依赖 关系 有 和 。 
4 

5 


. RDD 的 分 区 方式 有 和 
. RDD 的 容错 方式 有 和 


二 、 判断 题 


1. RDD 是 一 个 可 变 、 不 可 分 区 .里 面 的 元 素 是 可 并 行 计算 的 集合 。 ( ) 
2. RDD 采用 了 惰性 调用 , 即 在 RDD 的 处 理 过 程 中 ,真正 的 计算 发 生 在 RDD 的 “行动 ” 
操作 。 ( ) 
3，, 宽 依赖 是 指 每 一 个 父 RDD 的 Partition (分 区 ) 最 多 被 子 RDD 的 一 个 Partition 使 
用 。 ( ) 
4， 如 果 一 个 有 向 图 可 以 从 任意 顶点 出 发 经 过 若干 条 边 回 到 该 点 , 则 这 个 图 就 是 有 向 无 
环 图 。 ( ) 
5, 窄 依赖 是 划分 Stage 的 依据 。 ( ) 


三 、 选 择 题 
1. 下 列 方法 中 ,用 于 创建 RDD 的 方法 是 ( )。 

A. makeRDD() B. parallelize() C. textFile() D. testFile() 
2. 下 列 选项 中 ,哪个 不 属于 转换 算 子 操作 ? ( ) 

A. filter(func) B. map(func) 

C. reduce(func) D. reduceByKey(func) 
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3. 下 列 选 项 中 ,能 使 RDD 产生 宽 依 赖 的 是 (  )。 
A. map(func) B. filter(func) C. union D. groupByKey() 
、 简 答题 


1. 简 述 RDD 提供 的 两 种 故障 恢复 方法 。 
2. 简 述 如 何在 Spark 中 划分 Stage。 


五 、 编 程 题 


通过 Spark 的 RDD 编程 ,实现 词 频 统计 的 功能 。 
提示 : 对 文件 test. txt( 内 容 如 文件 3-1 所 示 ) 进 行 词 频 统计 。 
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学 习 目标 

。 理解 Spark SQL 的 基本 概念 及 其 架构 。 

。 掌握 DataFrame/Dataset 的 常用 操作 。 

。 掌握 RDD 转换 DataFrame 的 方式 。 

。 掌握 通过 Spark SQL 操作 数据 源 的 方法 。 


在 很 多 情况 下 ,开发 工程 师 并 不 了 解 Scala 语言 ,也 不 了 解 Spark 常用 API, 但 又 非常 想 
要 使 用 Spark 框架 提供 的 强大 的 数据 分 析 能 力 。Spark 的 开发 工程 师 们 考虑 到 了 这 个 问 
题 ,利用 SQL 的 语法 简洁 、 学 习 门 槛 低 以 及 在 编程 语言 普及 程度 和 流行 程度 高 等 诸多 优势 ， 
开发 了 Spark SQL 模块 ,通过 Spark SQL, 开 发 人 员 能 够 通过 使 用 SQL 语句 ,实现 对 结构 
化 数据 的 处 理 。 本 章 将 针对 Spark SQL 的 基本 原理 和 使 用 方式 进行 详细 讲解 。 


4.1 Spark SQL 的 基础 知识 


Spark SQL 是 Spark 用 来 处 理 结构 化 数据 的 一 个 模块 , 它 提供 了 一 个 叫 作 DataFrame 
的 编程 抽象 结构 数据 模型 ( 即 带 有 Schema 信息 的 RDD) .Spark SQL 作为 分 布 式 SQL 查询 
引擎 ,让 用 户 可 以 通过 SQL DataFrame API 和 Dataset API 三 种 方式 实现 对 结构 化 数据 的 
处 理 。 但 无 论 是 哪 种 API 或 者 是 编程 语言 .都 是 基于 同样 的 执行 引擎 ,因此 可 以 在 不 同 的 
API 之 间 随 意 切换 。 


4.1.1 Spark SQL 的 简介 


Spark SQL 的 前 身 是 Shark.Shark 最 初 是 美国 加 州 大 学 伯克利 分 校 的 实验 室 开 发 的 
Spark 生态 系统 的 组 件 之 一 , 它 运行 在 Spark 系统 之 上 ,Shark 重用 了 Hive 的 工作 机 制 ,并 
直接 继承 了 Hive 的 各 个 组 件 , Shark 将 SQL 语句 的 转换 从 MapReduce 作业 替换 成 了 
Spark 作业 ,虽然 这 样 提高 了 计算 效率 ,但 由 于 Shark 过 于 依赖 Hive, 因 此 在 版 本 迭代 时 很 
难 添加 新 的 优化 策略 ,从 而 限制 了 Spark 的 发 展 ,在 2014 年 ,伯克利 实验 室 停 止 了 对 Shark 
的 维护 ,转向 Spark SQL 的 开发 。Spark SQL 主要 提供 了 以 下 3 个 功能 。 

(1) Spark SQL 可 以 从 各 种 结构 化 数据 源 ( 如 JSON、Hive、Parquet 等 ) 中 读 取 数 据 , 进 
行 数据 分 析 。 

(2) Spark SQL 包含 行业 标准 的 JDBC 和 ODBC 连接 方式 ,因此 它 不 局 限于 在 Spark 
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程序 内 使 用 SQL 语句 进行 查询 。 

(3) Spark SQL 可 以 无 缝 地 将 SQL 查询 与 Spark 程序 进行 结合 , 它 能 够 将 结构 化 数据 
作为 Spark 中 的 分 布 式 数据 集 (RDD) 进 行 查询 ,在 Python 、Scala 和 Java 中 均 集成 了 相关 
API, 这 种 紧密 的 集成 方式 能 够 轻松 地 运行 SQL 查询 以 及 复杂 的 分 析 算 法 。 

总 体 来 说 , Spark SQL 支持 多 种 数据 源 的 查询 和 加 载 ,兼容 Hive, 可 以 使 用 JDBC/ 
ODBC 的 连接 方式 来 执行 SQL 语句 , 它 为 Spark 框架 在 结构 化 数据 分 析 方 面 提供 重要 的 技 
术 支 持 。 


4.1.2 Spark SQL 架构 


Spark SQL 兼容 Hive, 这 是 因为 Spark SQL 架构 与 Hive 底层 结构 相似 ,Spark SQL 复 
用 了 Hive 提供 的 元 数据 仓库 (Metastore)、HiveQL ,用 户 自 定义 函数 (UDF) 以 及 序列 化 和 
反 序 列 工具 (SerDes) ,下 面 通过 图 4-1 深入 了 解 Spark SQL 底层 架构 。 


Client CLI JDBC 
Cache Mgr | 


Driver 


Pyhsical Plan 


Spark 


HDFS 


Metastore 


Catalyst 


图 4-1 Spark SQL 架构 


从 图 4-1 中 可 以 看 出 ,Spark SQL 架构 与 Hive 架构 相 比 ,除了 把 底层 的 MapReduce 执 
行 引 擎 更 改 为 Spark, 还 修改 了 Catalyst 优化 器 , Spark SQL 快速 的 计算 效率 得 益 于 
Catalyst 优化 器 。 从 HiveQL 被 解析 成 语法 抽象 树 起 ,执行 计划 生成 和 优化 的 工作 全 部 交 
给 Spark SQL 的 Catalyst 优化 器 负责 和 管理 。 

Catalyst 优化 器 是 一 个 新 的 可 扩展 的 查询 优化 器 , 它 是 基于 Scala 函数 式 编程 结构 的 ， 
Spark SQL 开发 工程 师 设 计 可 扩展 架构 主要 是 为 了 在 今后 的 版 本 迭代 时 ,能 够 轻松 地 添加 
新 的 优化 技术 和 功能 ,尤其 是 为 了 解决 大 数据 生产 环境 中 遇 到 的 问题 (例如 ,针对 半 结 构 化 
数据 和 高 级 数据 分 析 ) .另外 ,Spark 作为 开源 项 目 , 外 部 开发 人 员 可 以 针对 项 目 需求 自行 扩 
展 Catalyst 优化 器 的 功能 。 下 面 通过 图 4-2 描述 Spark SQL 的 运行 架构 。 

Catalyst 优化 器 在 执行 计划 生成 和 优化 工作 时 , 离 不 开 自 己 内 部 的 五 大 组 件 ,具体 介绍 
如 下 。 

(1) SQLParse: 完成 SQL 语法 解析 功能 ,目前 只 提供 了 一 个 简单 的 SQL 解析 器 。 

(2) Analyze: 主要 完成 绑 定 工作 ,将 不 同 来 源 的 Unresolved LogicalPlan 和 元 数据 进 
行 绑 定 , 生 成 Resolved LogicalPlan 。 

(3) Optimizer: 对 Resolved LogicalPlan 进行 优化 ,生成 OptimizedLogicalPlan。 

(4) Planner: 将 LogicalPlan 转换 成 PhysicalPlan 。 
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es SQLParser [unresolved iogical plan | 。 Analyze analyzed logical plan 
QL 语句 (Localplan) (LocalPlan) 
Optimizer 
RDD |_ Execution | executeplan| CostModel | sparkPlan | Planner | optimized logical plan 
(Row) | (SparkPlan) (SparkPlan) {LocalPlan) 


图 4-2 Spark SQL 运行 架构 


(5) CostModel: 主要 根据 过 去 的 性 能 统计 数据 ,选择 最 佳 的 物理 执行 计划 。 

在 了 解 了 上 述 组 件 的 作用 后 ,下 面 分 步骤 讲解 Spark SQL 的 工作 流程 。 

(1) 在 解析 SQL 语句 之 前 ,会 创建 SparkSession ,涉及 表 名 .字段 名 称 和 字段 类 型 的 元 
数据 都 将 保存 在 SessionCatalog 中 ; 

(2) 当 调 用 SparkSession 的 sql() 方 法 时 就 会 使 用 SparkSqlParser 进行 SQL 语句 解 
析 , 解 析 过 程 中 使 用 ANTLR 进行 词法 解析 和 语法 解析 ; 

(3) 接着 使 用 Analyzer 分 析 器 绑 定 逻辑 计划 ,在 该 阶段 ,Analyzer 会 使 用 Analyzer 
Rules, 并 结合 SessionCatalog ,对 未 绑 定 的 逻辑 计划 进行 解析 ,生成 已 绑 定 的 逻辑 计划 ; 

(4) 然后 使 用 Optimizer 优化 器 优化 逻辑 计划 ,该 优化 器 同样 定义 了 一 套 规则 (Rules) ， 
利用 这 些 规则 对 逻辑 计划 和 语句 进行 迭代 处 理 ; 

(5) 接着 使 用 SparkPlanner 对 优化 后 的 逻辑 计划 进行 转换 ,生成 可 以 执行 的 物理 计划 
SparkPlan; 

(6) 最 终 使 用 QueryExecution 执行 物理 计划 ,此 时 则 调用 SparkPlan 的 execute() 方 
法 ,返回 RDDs。 


4.2 ”DataFrame 的 基础 知识 


4.2.1 DataFrame 简介 


Spark SQL 使 用 的 数据 抽象 并 非 是 RDD, 而 是 DataFrame。 在 Spark 1. 3. 0 版 本 之 前 ， 
DataFrame 被 称 为 SchemaRDD。DataFrame 使 Spark 具备 了 处 理 大 规模 结构 化 数据 的 能 
力 。 在 Spark 中 ,DataFrame 是 一 种 以 RDD 为 基础 的 分 布 式 数据 集 , 因 此 DataFrame 可 以 
完成 RDD 的 绝 大 多 数 功能 ,在 开发 使 用 时 ,也 可 以 调用 方法 将 RDD 和 DataFrame 进行 相 
互 转换 。DataFrame 的 结构 类 似 于 传统 数据 库 的 二 维 表格 ,并 且 可 以 从 很 多 数据 源 中 创建 ， 
如 结构 化 文件 .外 部 数据 库 、 Hive 表 等 数据 源 。 下 面 , 通 过 图 4-3 来 了 解 DataFrame 与 
RDD 在 结构 上 的 区 别 。 

在 图 4-3 中 , 左 侧 为 RDD[Person | 数据 集 , 右 侧 是 DataFrame 数据 集 。DataFrame 可 
以 看 作 是 分 布 式 的 Row 对 象 的 集合 ,在 二 维 表 数 据 集 的 每 一 列 都 带 有 名 称 和 类 型 ,这 就 是 
Schema 元 信息 ,这 使 得 Spark 框架 可 以 获取 更 多 的 数据 结构 信息 ,从 而 对 在 DataFrame 背 
后 的 数据 源 以 及 作用 于 DataFrame 上 数据 变换 进行 针对 性 的 优化 ,最 终 达到 大 幅 提升 计 
算 效率 的 目的 ;同时 .DataFrame 与 Hive 类 似 , 支 持 租 套数 据 类 型 (如 Struct、Array、 
Map) 。 
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\ ! | 
EF 
I EE 
| Swing | mt | Double | 
人 
| Suing | mL | Double | 
| String | mt | poube | 


RDDI[Person] DataFrame 
图 4-3 DataFrame 与 RDD 区 别 


表 头 字段 


属性 


RDD 是 分 布 式 的 Java 对 象 的 集合 ,如 图 4-3 中 的 RDD[ Person ] 数 据 集 ,虽然 它 以 
Person 为 类 型 参数 ,但 是 对 象 内 部 之 间 的 结构 相对 于 Spark 框架 本 身 是 无 法 得 知 的 ,这 样 
在 转换 数据 形式 时 效率 相对 较 低 。 

总 的 来 说 ,DataFrame 除了 提供 比 RDD 更 丰富 的 算 子 以 外 ,更 重要 的 特点 是 提升 
Spark 框架 执行 效率 ,减少 数据 读 取 时 间 以 及 优化 执行 计划 。 有 了 DataFrame 这 个 更 高 层 
次 的 抽象 后 ,处 理 数 据 就 更 加 简单 了 ,其 至 可 以 直接 用 SQL 来 处 理 数据 ,这 对 于 开发 者 来 
说 , 易 用 性 有 了 很 大 的 提升 。 不 仅 如 此 ,通过 DataFrame API 或 SQL 处 理 数 据 时 ,Spark 
优化 器 (Catalyst) 会 自动 优化 代码 ,即使 写 的 程序 或 SQL 不 高 效 ,程序 也 可 以 高 效 地 
执行 。 

4.2.2 DataFrame 的 创建 


在 Spark 2. 0 版 本 之 前 ,Spark SQL 中 的 SQLContext 是 创建 DataFrame 和 执行 SQL 的 入 
口 , 可 以 利用 HiveContext 接口 ,通过 HiveQL 语句 操作 Hive 表 数 据 , 实 现 数据 查询 功能 。 而 
在 Spark 2.0 之 后 ,Spark 使 用 全 新 的 SparkSession 接口 替代 SQLContext 及 HiveContext 接口 
完成 数据 的 加 载 .转换 .处 理 等 功能 。 

创建 SparkSession 对 象 可 以 通过 SparkSession. builder(). getOrCreate() 方 法 获取 ,但 使 用 
Spark-Shell 编写 程序 时 ,Spark-Shell 客户 端 会 默认 提供 了 一 个 名 为 sc 的 SparkContext 对 象 和 
一 个 名 为 spark 的 SparkSession 对 象 ,因此 可 以 直接 使 用 这 两 个 对 象 , 不 需要 自行 创建 。 启 动 
Spark-Shell 命令 如 下 所 示 。 


$spark- shell --master local[2] 


在 启动 Spark-Shell 完成 后 ,效果 如 图 4-4 所 示 。 

从 图 4-4 中 可 以 看 出 ,SparkContext、SparkSession 对 象 已 创建 完成 。 创 建 DataFrame 
有 多 种 方式 ,最 基本 的 方式 是 从 一 个 已 经 存在 的 RDD 调用 toDF() 方 法 进行 转换 得 到 
DataFrame, 或 者 通过 Spark 读 取 数据 源 直 接 创建 。 

在 创建 DataFrame 之 前 ,为 了 支持 RDD 转换 成 DataFrame 及 后 续 的 SQL 操作 ,需要 
导入 spark.implicits。 包 启用 隐 式 转换 。 若 使 用 SparkSession 方式 创建 DataFrame, 可 以 
使 用 spark. read 操作 ,从 不 同类 型 的 文件 中 加 载 数 据 创 建 DataFrame, 具 体操 作 API 如 
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表 4-1 所 示 。 


p= 
/TN version 2.3.2 


Using scala version 2.11.8 (Java Hotspot(™) 64-Bit server , Java 1.8.0_161) 
Type in expressions to have them evaluated. 
Type :help for more information. 


sea 


ssh2: AES-256-CTR 20, 8 20Rows, 113 Cols VT100 


图 4-4 启动 Spark-Shell 


表 4-1 spark. read 操作 


代码 示例 描 述 
spark. read. text("people. txt") 读 取 txt 格式 的 文本 文件 ,创建 DataFrame 
spark. read. csv ("people. csv") 读 取 csv 格式 的 文本 文件 ,创建 DataFrame 
spark. read. json( "people. json") 读 取 json 格式 的 文本 文件 ,创建 DataFrame 
spark. read. parquet("people. parquet") 读 取 parquet 格式 的 文本 文件 ,创建 DataFrame 


下 面 通过 具体 示例 演示 如 何 用 不 同方 式 创建 DataFrame。 
1. 数据 准备 


在 HDFS 文件 系统 的 /spark 目录 中 有 一 个 person. txt 文件 ,内 容 如 文件 4-1 所 示 。 
文件 4-1 person. txt 


zhangsan 20 
1isi 29 
wangwu 25 
zhaoliu 30 
tianqi 35 
jerry 40 


CE 


2. 通过 文件 直接 创建 DataFrame 
通过 Spark 读 取 数 据 源 的 方式 创建 DataFrame, 在 Spark-Shell 中 输入 下 列 代码 : 


scala >val personDF =spark.read.text ("/spark/person.txt") 
personDF: org.apache.spark.sql.DataFrame =[value: string] 
scala >personDF .printschema() 
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从 上 述 返 回 结果 personDF 的 属性 可 以 看 出 , DataFrame 对 象 创建 完成 ,之 后 调用 
DataFrame 的 printSchema() 方 法 可 以 打印 当前 对 象 的 Schema 元 数据 信息 。 从 返回 结果 
可 以 看 出 ,当前 value 字段 是 String 数据 类 型 ,并且 还 可 以 为 Null。 

使 用 DataFrame 的 show() 方 法 可 以 查看 当前 DataFrame 的 结果 数据 ,具体 代码 和 返 
回 结果 如 下 所 示 。 


从 上 述 返回 结果 可 以 看 出 ,当前 personDF 对 象 中 的 6 条 记录 就 对 应 了 person. txt 文 
本 文件 中 的 数据 。 


3. RDD 转换 DataFrame 


调用 RDD 的 toDF() 方 法 ,可 以 将 RDD 转换 为 DataFrame 对 象 ,具体 代码 如 下 所 示 。 
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在 上 述 代码 中 ,第 1 行 代码 将 文本 文件 转换 成 RDD; 第 4 行 代码 定义 Person 样 例 类 ， 
相当 于 定义 表 的 Schema 元 数据 信息 ;第 6 行 代码 表示 使 RDD 中 的 数组 数据 与 样 例 类 进行 
关联 ,最 终 会 将 RDD[LArray[ String ]] 更 改 为 RDD[ Person]; 第 9 行 代码 表示 调用 RDD 的 
toDF() 方 法 ,就 可 以 把 RDD 转换 成 DataFrame。 第 12 一 27 行 代码 表示 调用 DataFrame 方 
法 ,从 返回 结果 可 以 看 出 ,RDD 对 象 成 功 转换 为 DataFrame。 


4.2.3 DataFrame 的 常用 操作 


DataFrame 提供 了 两 种 语法 风格 , 即 DSL 风格 语法 和 SQL 风格 语法 ,两 者 在 功能 上 并 
无 区 别 ,仅仅 是 根据 用 户 习 惯 , 自 定义 选择 操作 方式 。 接 下 来 ,通过 两 种 语法 风格 ,分 别 讲解 
DataFrame 操作 的 具体 方法 。 


1. DSL 风格 操作 


DataFrame 提供 了 一 种 领域 特定 语言 (DSL) 以 方便 操作 结构 化 数据 ,下 面 针对 DSL 操 
作风 格 ,讲解 DataFrame 常用 操作 示例 。 

(1) show(): 查看 DataFrame 中 的 具体 内 容 信息 。 

(2) printSchema() : 查看 DataFrame 的 Schema 信息 。 

(3) select() : 查看 DataFrame 中 选取 部 分 列 的 数据 。 

下 面 演示 并 查看 personDF 对 象 的 name 字段 数据 .具体 代码 如 下 所 示 。 


上 述 代码 中 ,查询 name 字段 的 数据 还 可 以 直接 使 用 personDF. select("name"). show 
代码 直接 查询 。 
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select() 操 作 还 可 以 实现 对 列 名 进行 重 命名 ,具体 代码 如 下 所 示 。 


从 返回 结果 看 出 , 原 name 字段 重 命名 为 username 字段 。 
(4) filter() : 实现 条 件 查询 ,过 滤 出 想 要 的 结果 。 
下 面 演 示 过 滤 age 大 于 或 等 于 25 的 数据 ,具体 代码 如 下 所 示 。 


从 上 述 返回 结果 可 以 看 出 ,成功 过 滤 出 age 大 于 或 等 于 25 岁 的 数据 。 
(5) groupBy() : 对 记录 进行 分 组 。 
下 面 演示 按 年 龄 进行 分 组 并 统计 相同 年 龄 的 人 数 , 具 体 代 码 如 下 所 示 。 


从 上 述 返 回 结果 可 以 看 出 ,groupBy() 成 功 统计 出 相同 年 龄 的 人 数 信息 。 
(6) sort(): 对 特定 字段 进行 排序 操作 。 
下 面 演示 按 年 龄 降序 排列 ,具体 代码 如 下 所 示 。 
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从 上 述 返 回 结果 看 出 ,数据 成 功 按照 年 龄 降序 排列 。 
2. SQL 风格 操作 


DataFrame 的 强大 之 处 就 是 可 以 将 它 看 作 是 一 个 关系 型 数据 表 , 然 后 可 以 在 程序 中 直 
接 使 用 spark. sql() 的 方式 执行 SQL 查询 ,结果 将 作为 一 个 DataFrame 返回 。 使 用 SQL 风 
格 操作 的 前 提 是 需要 将 DataFrame 注册 成 一 个 临时 表 , 代 码 如 下 所 示 。 


下 面 通过 多 个 示例 ,演示 使 用 SQL 风格 方式 操作 DataFrame。 
(1) 查询 年 龄 最 大 的 两 个 人 的 信息 ,具体 执行 代码 如 下 所 示 。 


(2) 查询 年 龄 大 于 25 岁 的 人 的 信息 ,具体 代码 如 下 所 示 。 


DataFrame 操作 方式 简单 ,并 且 功 能 强大 ,熟悉 SQL 语法 的 开发 者 都 能 够 快速 地 掌握 
DataFrame 的 操作 ,本 节 只 讲解 了 部 分 常用 的 操作 方式 ,读者 可 通过 Spark 官方 文档 
https://spark. apache. org/docs/latest/sql-programming-guide. html 详细 学 习 DataFrame 
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的 操作 方式 。 


4.3 Dataset 的 基础 知识 


4.3.1 Dataset 简介 


Dataset 是 从 Spark 1. 6 Alpha 版 本 中 引入 的 一 个 新 的 数据 抽象 结构 ,最 终 在 Spark 2.0 
版 本 被 定义 成 Spark 新 特性 。Dataset 提供 了 特定 域 对 象 中 的 强 类 型 集合 ,也 就 是 在 RDD 
的 每 行 数据 中 添加 了 类 型 约束 条 件 ,只 有 满足 约束 条 件 的 数据 类 型 才能 正常 运行 。Dataset 
结合 了 RDD 和 DataFrame 的 优点 ,并 且 可 以 调用 封装 的 方法 以 并 行 方 式 进 行 转换 等 操作 。 
下 面 通过 图 4-5 来 理解 RDD、DataFrame 与 Dataset 三 者 的 区 别 。 


DataFrame 
1, 张 三,23 1 张 23 
2, 李 四 , 26 
(a) 
Dataset Dataset 

value: String value: People [id:Int, name: String, age: Int] 
1, 张 三 , 23 People (id=1, name=" 张 三 ", age=23) 

2, 李 四 , 26 People (id=2, name= " 李 四 ", age=26) 


(0) (d) 
图 4-5 RDD、DataFrame、Dataset 数据 示例 


图 4-5(a) 一 图 4-5(d) 分 别 展示 了 不 同 数据 类 型 的 抽象 结构 ,其 中 : 

图 4-5(a) 所 示 是 基本 的 RDD 数据 的 表现 形式 ,此 时 RDD 数据 没有 数据 类 型 和 元 数据 
信息 ; 

图 4-5(b) 所 示 是 DataFrame 数据 的 表现 形式 ,此 时 DataFrame 数据 中 添加 了 Schema 
元 数据 信息 ( 列 名 和 数据 类 型 ,如 ID: String) ,DataFrame 每 一 行 的 类 型 固定 为 Row 类 型 ， 
每 一 列 的 值 无 法 直接 访问 ,只 有 通过 解析 才能 获取 各 个 字段 的 值 ; 

图 4-5(c)、 图 4-5(d) 所 示 都 是 Dataset 数据 的 表现 形式 ,其 中 图 4-5(c) 所 示 是 在 RDD 
每 一 行 数据 的 基础 之 上 ,添加 了 一 个 数据 类 型 (value: String) 作 为 Schema 元 数据 信息 。 而 
图 4-5(d) 则 针对 每 行 数据 添加 了 People 强 数据 类 型 ,在 Dataset[Person] 中 存放 的 是 3 个 
字段 和 属性 ,Dataset 每 一 行 数据 类 型 都 可 以 自己 定义 ,一 旦 定义 后 ,就 具有 严格 的 错误 检查 
机 制 。 


4.3.2 ”Dataset 对 象 的 创建 
包 


过 


建 Dataset 可 以 通过 SparkSession 中 的 createDataset 来 创建 ,具体 代码 如 下 。 
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scala >val personDs= 

spark.createDataset (sc.textFile ("/spark/person.txt")) 
personDs: org.apache.spark.sql.Dataset[string] =[value: string] 
scala >personDs.show() 


11 zhangsan 20 
12 is 29 
13 wangwu 25 
14 zhaoliu 30 
15 tianqgi 35 
16 jerry 40 


从 上 述 返 回 结果 personDs 的 属性 可 以 看 出 ,Dataset 从 已 存在 的 RDD 中 构建 成 功 ,并 且 赋 
予 value 为 String 类 型 。Dataset 和 DataFrame 拥有 完全 相同 的 成 员 消 数 , 通 过 show() 方 法 可 
以 展示 personDs 中 数据 的 具体 内 容 。 

Dataset 不 仅 能 从 RDD 中 构建 , 它 与 DataFrame 也 可 以 互相 转换 ,DataFrame 可 以 通 
过 as[ElementType] 方 法 转换 为 Dataset, 同样 Dataset 也 可 以 使 用 toDF() 方 法 转换 为 
DataFrame, 具 体 代 码 如 下 。 


scala>spark.read. text ("/spark/person.txt") .as[String] 

res14: org.apache.spark.sql.Dataset[string] =[value: string] 
scala> spark.read.text ("/spark/person.txt") .as[String].toDF () 
res15: org.apache.spark.sql.DataFrame =[value: string] 


Dataset 操作 与 DataFrame 大 致 相同 ,读者 可 查看 官方 API https://spark. apache. 
org/docs/latest/api/scala/index. html # org. apache. spark. sql. Dataset 详细 学 习 更 多 的 
Dataset 操作 。 


4.4 RDD 转换 为 DataFrame 


Spark 官方 提供 了 两 种 方法 实现 从 RDD 转换 得 到 DataFrame。 第 一 种 方法 是 利用 反 
射 机 制 来 推断 包含 特定 类 型 对 象 的 Schema, 这 种 方式 适用 于 对 已 知 数据 结构 的 RDD 转换 ; 
第 二 种 方法 通过 编程 接口 构造 一 个 Schema, 并 将 其 应 用 在 已 知 的 RDD 数据 中 。 接 下 来 本 
节 将 讲解 这 两 种 转换 方法 。 
4.4.1 反射 机 制 推断 Schema 

在 Windows 系统 下 开发 Scala 代码 ,可 以 使 用 本 地 环境 测试 ,因此 首先 需要 在 本 地 磁 
盘 准备 文本 数据 文件 ,这 里 将 HDFS 中 的 /spark/person. txt 文件 下 载 到 本 地 D:/spark/ 


person. txt 路 径 下 。 从 文件 4-1 可 以 看 出 ,当前 数据 文件 共 3 列 ,可 以 非常 容易 地 分 析出 这 
3 列 分 别 是 编号 、 姓 名 、 年 龄 。 但 是 计算 机 无 法 像 人 一 样 直观 地 感受 字段 的 实际 含义 ,因此 
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需要 通过 反射 机 制 来 推断 包含 特定 类 型 对 象 的 Schema 信息 。 
接 下 来 打开 IDEA 开发 工具 ,创建 名 为 spark_chapter04 的 Maven 工程 ,讲解 实现 反射 
机 制 推断 Schema 的 开发 流程 。 


1. 添加 Spark SQL 依赖 
在 pom. xml 文件 中 添加 Spark SQL 依赖 ,代码 片段 如 下 所 示 。 


2. 编写 代码 


实现 反射 机 制 推断 Schema 需要 定义 一 个 case class 样 例 类 ,定义 字段 和 属性 , 样 例 类 
的 参数 名 称 会 被 反射 机 制 利用 作为 列 名 ,编写 代码 如 文件 4-2 所 示 。 
文件 4-2 CaseClassSchema. scala 
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29 personDF .show () 

30 //2. 显 示 DataFrame 的 schema 信息 

31 personDF.printschema () 

32 //3. 统 计 DataFrame 中 年 龄 大 于 30 岁 的 人 数 

33 println (personDF.filter ($"age">30) .count ()) 

34 //=========== DSL 风格 操作 结束 ------------- 
35 WU SQL 风格 操作 开始 ------------- 
36 // 将 DataFrame 注册 成 表 

37 PersonDE.createOrReplaceTempView("t person") 
38 spark.sql ("select * fromt person").show() 

3 spark.sql ("select * fromt person where name='zhangsan'") .show() 
40 本 SQL 风格 操作 结束 ------------- 
1 // 关 闭 资源 操作 

42 sc.stop () 

43 Spark.stop () 

44 i 

45 } 


在 文件 4-2 中 ,第 5 行 代码 表示 定义 了 一 个 Person 的 case 类 ,这 是 因为 在 利用 反射 机 
制 推断 RDD 模式 时 ,首先 需要 定义 一 个 case 类 ,因为 Spark SQL 能 够 自动 将 包含 case 类 
的 RDD 隐 式 转换 成 DataFrame,case 类 定义 了 Table 的 结构 ,case 类 的 属性 通过 反射 机 制 
变 成 表 的 列 名 。 第 9 一 14 行 代码 中 通过 SparkSession. builder() 方 法 构建 名 为 spark 的 
SparkSession 对 象 ,并 通过 spark 对 象 获取 SparkContext。 第 18 一 26 行 代码 中 ,通过 sc 对 
象 读 取 文 件 ,系统 会 将 文件 加 载 到 内 存 中 生成 一 个 RDD, 将 RDD 与 case class Person 进行 
匹配 ,personRdd 对 象 即 为 RDD[ Person],toDF() 方 法 是 将 RDD 转换 为 DataFrame, 在 调 
用 toDF() 方 法 之 前 需要 手动 添加 spark. implicits. _ 包 。 第 27 一 39 行 代码 表示 当前 创建 
DataFrame 对 象 后 ,使 用 DSL 和 SQL 两 种 语法 操作 风格 进行 数据 查询 。DataFrame 操作 
和 之 前 在 Spark-Shell 操作 示例 大 致 相同 ,因此 这 里 不 再 展示 执行 效果 。 


4.4.2 编程 方式 定义 Schema 


当 case 类 不 能 提前 定义 的 时 候 , 就 需要 采用 编程 方式 定义 Schema 信息 ,定义 DataFrame 
主要 包含 3 个 步骤 ,具体 如 下 : 

(1) 创建 一 个 Row 对 象 结 构 的 RDD; 

(2) 基于 StructType 类 型 创建 Schema; 

(3) 通过 SparkSession 提供 的 createDataFrame() 方 法 来 拼接 Schema。 

根据 上 述 步骤 ,创建 SparkSqlSchema. scala 文件 ,使 用 编程 方式 定义 Schema 信息 的 具 
体 代 码 如 文件 43 所 示 。 

文件 4-3 SparkSqlSchema. scala 


1 import org.apache.spark.SparkContext 
2 import org.apache.spark.rdd.RDD 

3 import org.apache.spark.sql.types. 

4 


{IntegerType, stringType, structField, structType} 


第 4 章 Spark SQL 结构 化 数据 文件 处 理 ”B93 本 


在 文件 4-3 中 ,第 9 一 23 行 代码 表示 将 文件 转换 成 为 RDD 的 基本 步骤 ,第 25 一 29 行 代 
码 即 为 编程 方式 定义 Schema 的 核心 代码 ,Spark SQL 提供 了 Class StructType(val fields: 
Array[StructField]) 类 来 表示 模式 信息 ,生成 一 个 StructType 对 象 ,需要 提供 fields 作为 输 
人 参数 .fields 是 一 个 集合 类 型 ,StructField(name,dataType.nullable) 参 数 分 别 表示 为 字段 
名 称 、 字 有 段 数据 类 型 ,字段 值 是 否 允 许 为 空 值 ,根据 person. txt 文本 数据 文件 分 别 设置 id、 
name、age 字段 作为 Schema. 第 31 行 代码 表示 通过 调用 spark. createDataFrame() 方 法 将 
RDD 和 Schema 进行 合并 转换 为 DataFrame. 第 33 一 40 行 代码 即 为 操作 DataFrame 进行 数 
据 查询 。 
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4.5 Spark SQL 操作 数据 源 


Spark SQL 能 够 通过 DataFrame 和 Dataset 操作 多 种 数据 源 执行 SQL 查询 ,并 且 提 供 
了 多 种 数据 源 之 间 的 转换 方式 , 接 下 来 ,本 节 将 讲解 通过 Spark SQL 操作 MySQL .Hive 两 
种 常见 数据 源 的 方法 。 


4.5.1 操作 MySQL 


Spark SQL 可 以 通过 JDBC 从 关系 数据 库 中 读 取 数据 创建 DataFrame, 通过 对 
DataFrame 进行 一 系列 的 操作 后 ,还 可 以 将 数据 重新 写 入 到 关系 数据 库 中 。 关 于 Spark 
SQL 对 MySQL 数据 库 的 相关 操作 具体 如 下 。 


1. 读 取 MySQL 数据 库 


通过 SQLyog 工具 远程 连接 hadoop01 节点 的 MySQL 服务 ,利用 可 视 化 操作 界面 创建 
名 称 为 spark 的 数据 库 , 并 创建 名 称 为 person 的 数据 表 , 向 表 中 添加 数据 。 

同样 也 可 以 在 hadoop01 节点 上 使 用 MySQL 客户 端 创 建 数 据 库 、 数 据 表 以 及 插入 数 
据 ,具体 命令 如 下 。 


# 启 动 mysql 客户 端 

$mysql -u root -p + 屏幕 提示 输入 密码 

+ 创建 名 为 spark 的 数据 库 

mysql >CREATE database spark; 

# 创 建 person 数据 表 

my5q] >CREATE TABLE person (id INT (4),NAME CHAR (20) ,age INT(4)); 
+ 插 和 人 数据 

mysql >INSERT INTO person VALUE (1, 'zhangsan',18); 

my5q] >INSERT INTO person VALUE (2, "1isi'v20)7 

mysql >SELECT * FROM person; 


数据 库 和 数据 表 创 建成 功 后 ,如 果 想 通过 Spark SQL API 方式 访问 MySQL 数据 库 ， 
需要 在 pom. xml 配置 文件 中 添加 MySQL 驱动 连接 包 , 依 赖 参 数 如 下 。 


<dependency> 
<groupId>mysql< /groupId> 
<artifactId>mysql- connector- java</artifactId> 
<version>5.1.38< /version> 

</dependency> 


当 所 需 依赖 添加 完毕 后 ,就 可 以 编写 代码 读 取 MySQL 数据 库 中 的 数据 ,具体 代码 如 文 
件 4-4 所 示 。 
文件 4-4 DataFromMysql. scala 


1 import java.util.Properties 
2 import org.apache.spark.sql.{DataFrame, SparkSsession} 
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文件 4-4 中 ,第 15 一 16 行 代码 spark. read. jdbc() 方 法 可 以 实现 读 取 MySQL 数据 库 中 
的 数据 , 它 需 要 url\table 和 properties 3 个 参数 ,分 别 表示 JDBC 的 url ,数据 表 名 数据库 
的 用 户 名 和 密码 。 

运行 文件 4-4 中 的 代码 ,控制 台 输 出 内 容 如 图 4-6 所 示 。 


19/01/17 17:38:04 INFO TaskschedulerImpl: Removed TaskSet 0.0, whose tasks have all c| 
19/01/17 17:38:04 INFO DAGScheduler: Resultstage 0 (show at DataFromMysql.scala:22) f| 
19/01/17 17:38:04 INFO DAGScheduler: Job 0 finished: show at DataFromMysql.scala:22, 
+---+--------+---+ 
1 idl namelagel 
一 一 一 ++ 一 一 一 一 一 一 一 一 十 一 一 十 

傅 | | 1lzhangsan| 181 
|1 21 lisil 20| 
| +---+--------+---+ 


图 4-6 Spark SQL 查询 MySQL 数据 


2. 向 MySQL 数据 库 写 入 数据 


Spark SQL 不 仅 能 够 查询 MySQL 数据 库 中 的 数据 ,还 可 以 向 表 中 插入 新 的 数据 ,实现 
方式 的 具体 代码 如 文件 4-5 所 示 。 
文件 4-5 SparkSqlToMysql. scala 
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在 文件 45 中 ,第 5 行 代码 首先 创建 case class Person 样 例 类 ;第 9 一 12 行 代码 用 来 创 
建 SparkSession 对 象 ; 第 14 一 15 行 代码 则 通过 spark. SparkContext. parallelize( ) 方 法 创建 
一 个 RDD, 该 RDD 值 表示 两 个 person 数据 ;第 17 一 24 行 代 码 表示 将 数据 按照 逗号 切 分 并 
匹配 case class Person 中 的 字段 用 于 转换 成 DataFrame 对 象 ; 第 26 一 29 行 代码 表示 设置 
JDBC 配置 参数 ,访问 MySQL 数据 库 ; 第 31 行 代码 personDF. write. mode() 方 法 表示 设置 
写 入 数据 方式 ,该 参数 append 是 一 个 枚 举 类 型 , 枚 举 参数 分 别 有 append、 overwrite、 
errorIfExists、ignore 4 个 值 ,分别 表 示 为 追加 、 蓝 盖 、 表 如 果 存 在 即 报错 (该 值 为 默认 值 )、 忽 
略 新 保存 的 数据 。 

运行 文件 4-5 中 的 代码 ,返回 SQLyog 工具 查看 当前 数据 表 , 数 据 表 内 容 如 图 4-7 所 示 。 

从 图 4-7 可 以 看 出 ,新 数据 被 成 功 写 人 到 person 数据 表 。 


4.5.2 操作 Hive 数据 集 


Apache Hive 是 Hadoop 上 的 SQL 引擎 ,也 是 大 数据 系统 中 重要 的 数据 仓库 工具 ， 
Spark SQL 支持 访问 Hive 数据 仓库 ,然后 在 Spark 引擎 中 进行 统计 分 析 。 接 下 来 介绍 通过 
Spark SQL 操作 Hive 数据 仓库 的 具体 实现 步 又。 
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SQLyog Ultimate - [hadoop = 
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1. 准备 环境 


Hive 采用 MySQL 数据 库存 放 Hive 元 数据 ,因此 为 了 能 够 让 Spark 访问 Hive, 就 需要 
将 MySQL 驱动 包 复 制 到 Spark 安装 路 径 下 的 jars 目录 下 ,具体 命令 如 下 。 


$cp mysql-connector-java-5.1.32.jar /export/servers/spark/jars/ 


要 把 Spark SQL 连接 到 一 个 部 署 好 的 Hive 时 ,就 必须 要 把 hive 一 site. xml 配置 文件 
复制 到 Spark 的 配置 文件 目录 中 ,这 里 采用 软 连接 方式 ,具体 命令 如 下 。 


ln -5 /export/servers/apache-hive-1.2.1-bin/conf/hive- site.xml \ 
/export/servers/spark/conf/hive- site.xml 


2. 在 Hive 中 创建 数据 库 和 表 
接 下 来 ,首先 在 hadoop01 节点 上 启动 Hive 服务 ,创建 数据 库 和 表 , 具 体 命令 如 下 。 


# 启 动 Hive 程序 
Shive 
# 创建 数据 仓库 
hive >create database sparksqltest; 
# 创 建 数据 表 
hive >create table if not exists \ 
sparksqltest .person (id int,name string,age int); 


F 
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目前 ,成 功 创建 person 数据 表 , 并 在 该 表 中 插入 了 两 条 数据 ,下 面 克隆 hadoop01 会 话 
窗口 ,执行 Spark-Shell。 


3. Spark SQL 操作 Hive 数据 库 


执行 Spark-Shell, 首 先进 入 sparksqltest 数据 仓库 ,查看 当前 数据 仓库 中 是 否 存 在 
person 表 , 具 体 代码 如 下 。 


从 上 述 返 回 结 果 看 出 ,当前 Spark 一 Shell 成 功 显 示 出 Hive 数据 仓库 中 的 person 表 。 
4. 向 Hive 表 写 入 数据 
在 插入 数据 之 前 ,首先 查看 当前 表 中 数据 ,具体 代码 如 下 。 


从 上 述 返 回 结果 看 出 ,当前 person 表 中 仅 有 两 条 数据 信息 。 
下 面 在 Spark-Shell 中 编写 代码 ,添加 两 条 数据 到 person 表 中 ,具体 代码 如 下 。 
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上 述 代 码 中 ,第 5 一 6 行 代码 表示 先 创建 两 条 数据 ,并 将 其 转换 为 RDD 格式 ;由 于 Hive 
表 中 含有 Schema 信息 ,因此 在 第 8 一 12 行 代码 中 采用 编程 方式 定义 Schema 信息 ;第 14 一 17 
行 代码 表示 创建 相应 的 DataFrame 对 象 ; 第 19 一 23 行 代码 表示 通过 DataFrame 对 象 向 
Hive 表 中 插入 新 数据 。 从 第 24 一 31 行 代码 可 以 看 出 ,数据 已 经 成 功 插入 到 Hive 表 中 。 


4.6 本 章 小 结 


本 章 主要 针对 Spark SQL 的 相关 知识 进行 讲解 ,包括 Spark SQL 架构 .Spark SQL 数 
据 模型 DataFrame、Dataset、RDD 转换 DataFrame 以 及 通过 Spark SQL 操作 数据 源 。 通 过 
本 章 的 学 习 , 希 望 读 者 能 够 了 解 Spark SQL 架构 ,掌握 DataFrame、Dataset 的 创建 方法 和 基 
本 操作 以 及 如 何 利用 Spark SQL 操作 MySQL 数据 库 和 Hive 数据 仓库 。 


4.7 课 后 习题 


一 、 填 空 题 
1. Spark SQL 是 Spark 用 来 的 一 个 模块 。 
2. Spark 要 想 很 好 地 支持 SQL ,就 需要 完成 \ 优 化 (Optimizer) 、 三 夫 


过 程 。 
3. Spark SQL 作为 分 布 式 SQL 查询 引擎 ,让 用 户 可 以 通过 \DataFrames API 


Spark 大 数据 分 析 与 实战 


和 3 种 方式 实现 对 结构 化 数据 的 处 理 。 
4. Catalyst 优化 器 在 执行 计划 生成 和 优化 工作 时 离 不 开 它 内 部 的 五 大 组 件 , 分 别 是 
SQLParse、 ~Optimizer 、 和 CostModel。 
5. Dataset 是 从 版 本 中 引入 的 一 个 新 的 数据 抽象 结构 ,最 终 在 版 本 
被 定义 成 Spark 新 特性 。 
二 、 判断 题 
1. Spark SQL 的 前 身 是 Shark,Shark 最 初 是 瑞士 洛桑 联邦 理工 学 院 (EPFL) 的 编程 方 
法 实验 室 研发 的 Spark 生态 系统 的 组 件 之 一 。 C3 
2. Spark SQL 与 Hive 不 兼容 。 ( ) 
3. 在 Spark SQL 中 , 若 想 要 使 用 SQL 风格 操作 , 则 需要 提前 将 DataFrame 注册 成 一 张 
临时 表 。 ( ) 
4. 在 Spark SQL 中 ,可 以 利用 反射 机 制 来 推断 包含 特定 类 型 对 象 的 Schema, 从 而 将 已 
知 数据 结构 的 RDD 转换 成 DataFrame。 ( 
5. Spark SQL 可 以 通过 JDBC 从 关系 数据 库 中 读 取 数 据 的 方式 创建 DataFrame, 通 过 
对 DataFrame 进行 一 系列 的 操作 后 ,不 可 以 将 数据 重新 写 入 到 关系 数据 库 中 。 E ) 
三 、 选 择 题 
1. Spark SQL 可 以 处 理 的 数据 源 包括 哪些 ? ( ) 
A. Hive 表 B. 数据 文件 .Hive 表 
C. 数据 文件 ,Hive 表 、RDD D. 数据 文件 ,Hive 表 、RDD、 外 部 数据 库 
2. 下 列 说 法 正确 的 是 哪 一 项 ? 〈 ) 
A. Spark SQL 的 前 身 是 Hive B. DataFrame 其 实 就 是 RDD 


C. HiveContext 继承 了 SqlContext D. HiveContext 只 支持 SQL 语法 解析 器 
3. Spark SQL 中 ,mode 函数 可 以 接收 的 参数 有 哪些 ? ( ) 

A. Overwrite.Append,Ignore,ErrorlfExists 

B. Overwrite,Ignore 

C. Overwrite\Append JIgnore 

D. Append,Ignore,ErrorlfExists 


四 、 简 答题 

1. 简 述 Spark SQL 的 功能 。 

2. 简 述 Spark SQL 的 工作 流程 。 
五 、 编 程 题 


编写 Spark 程序 .实现 以 下 操作 : 
(1) 通过 Spark SQL 读 取 关系 数据 库 MySQL 中 的 数据 ; 
(2) 通过 Spark SQL 往 关 系数 据 库 MySQL 中 插入 数据 。 


5 
HBase 分 布 式 数据 库 


学 习 目标 

。 理解 HBase 的 数据 模型 。 

。 掌握 HBase 的 集群 部 署 方法 。 

。 理解 HBase 的 架构 。 

。 理解 HBase 读 写 数据 的 流程 。 

。 掌握 HBase 与 Hive 的 整合 方法 。 


Spark 计算 框架 是 如 何在 分 布 式 环境 下 对 数据 处 理 后 的 结果 进行 随机 地 、 实 时 地 存储 
呢 ? HBase 数据 库 正 是 为 了 解决 这 种 问题 而 产生 的 。 不 同 于 一 般 的 数据 库 , 如 MySQL 数 
据 库 和 Oracle 数据 库 是 基于 行进 行 数据 的 存储 ,HBase 数据 库 是 基于 列 进行 数据 的 存储 ， 
这 样 的 话 , HBase 就 可 以 随 着 存储 数据 的 不 断 增 加 而 实时 动态 地 增加 列 , 从 而 满足 Spark 计 
算 框架 可 以 实时 地 将 处 理 好 的 数据 存储 到 HBase 数据 库 中 的 需求 。 本 章 将 详细 讲解 
HBase 分 布 式 数据 库 的 相关 知识 。 


5.1 HBase 的 基础 知识 


5.1.1 HBase 的 简介 


HBase 起 源 于 2006 年 Google 公司 发 表 的 BigTable 论文 。 在 2008 年 ,PowerSet 的 
Chad Walters 和 Jim Keller 受到 了 该 论文 思想 的 启发 ,把 HBase 作为 Hadoop 的 子 项 目 来 
进行 开发 维护 ,用 于 支持 结构 化 的 海量 数据 存储 。 

HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 数据 库 , 利 用 HBase 可 在 廉 
价 PC 服务 器 上 搭建 起 大 规模 结构 化 存储 集群 。HBase 的 目标 是 存储 并 处 理 大 型 的 数据 ， 
更 具体 来 说 是 仅 需 使 用 普通 的 硬件 配置 .就 能 够 处 理由 成 千 上 万 的 行 和 列 所 组 成 的 大 型 数 
据 。HBase 分 布 式 数据 库 具有 如 下 的 显著 特点 。 

(1) 容量 大 。 

HBase 分 布 式 数据 库 中 的 表 可 以 存储 成 千 上 万 的 行 和 列 组 成 的 数据 。 

(2) 面向 列 。 

HBase 是 面向 列 的 存储 和 权限 控制 ,并 支持 独立 检索 。 列 存储 ,其 数据 在 表 中 是 按照 
某 列 存储 的 ,根据 数据 动态 地 增加 列 ,并 且 可 以 单独 对 列 进行 各 种 操作 。 
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(3) 多 版 本 。 

HBase 中 表 的 每 一 个 列 的 数据 存储 都 有 多 个 版 本 (Version) 。 一 般 地 ,每 一 列 对 应 着 一 
条 数据 ,但 是 有 的 数据 会 对 应 多 个 版 本 ,例如 ,存储 个 人 信息 的 HBase 表 中 ,如 果 某 个 人 多 
次 更 换 过 家 庭 住址 ,那么 记录 家 庭 住 址 的 数据 就 会 有 多 个 版 本 。 

(4) 稀 朴 性 。 

由 于 HBase 中 表 的 列 允 许 为 空 ,并且 空 列 不 会 占用 存储 空间 ,因此 , 表 可 以 设计 得 非常 
稀 朴 。 

(5) 扩展 性 。 

HBase 的 底层 依赖 于 HDFS。 当 磁盘 空间 不 足 时 ,可 以 动态 地 增加 机 器 ( 即 DataNode 
节点 服务 ) 来 增加 磁盘 空间 ,从 而 避免 像 关系 数据 库 那样 ,进行 数据 迁移 。 

(6) 高 可 靠 性 。 

由 于 HBase 底层 使 用 是 的 HDFS, 而 HDFS 本 身 具 有 备份 机 制 , 所 以 在 Spark 集群 出 
现 严重 问题 时 ,Replication( 即 副本 机制 能 够 保证 数据 不 会 发 生 丢失 或 损坏 。 

虽然 HBase 是 Google Bigtable 的 开源 实现 ,但 是 它们 之 间 有 很 多 不 同 之 处 ,例如 ， 
Google BigTable 利用 GFS 作为 其 文件 存储 系统 ,而 HBase 利用 HDFS 作为 其 文件 存储 系 
统 ;Google 运行 MapReduce 来 处 理 BigTable 中 的 海量 数据 ,而 HBase 同样 利用 Hadoop 
的 MapReduce 来 处 理 HBase 中 的 海量 数据 ;Google BigTable 利用 Chubby 作为 协同 服务 ， 
而 HBase 利用 Zookeeper 作为 协调 服务 。 

HBase 作为 一 种 分 布 式 数据 库 , 它 与 传统 数据 库 相 比 有 很 大 区 别 , 下 面 从 存储 模式 、 表 
字段 以 及 可 延伸 性 这 3 个 方面 分 别 进行 介绍 。 

(1) 存储 模式 。 传 统 数据 库 中 是 基于 行 存储 的 ,而 HBase 是 基于 列 进行 存储 的 。 

(2) 表 字 上段。 传统 数据 库 中 的 表 字 段 不 能 超过 30 个 ,而 HBase 中 的 表 字 段 不 受 
限制 。 

(3) 可 延伸 性 。 传 统 数据 库 中 的 列 是 固定 的 ,需要 先 确 定 列 有 和 多少 才 会 增加 数据 去 存 
储 ,而 HBase 是 根据 数据 存储 的 大 小 去 动态 地 增加 列 , 列 是 不 固定 的 。 


5.1.2 HBase 的 数据 模型 


HBase 分 布 式 数 据 库 的 数据 存储 在 行列 式 的 表格 中 ,是 一 个 多 维度 的 映射 模型 ,其 数 
据 模 型 如 图 5-1 所 示 。 

在 图 5-1 中 包含 了 很 多 的 字段 .这 些 字段 分 别 表示 不 同 的 含义 ,具体 介绍 如 下 。 

(1) Row Key( 行 键 ) 。 

Row Key 表示 行 键 ,每 个 HBase 表 中 只 能 有 一 个 行 键 , 它 在 HBase 中 以 字典 序 的 方式 
存储 。 由 于 Row Key 是 HBase 表 的 唯一 标识 ,因此 Row Key 的 设计 非常 重要 。 数 据 的 存 
储 规则 是 相近 的 数据 存储 到 一 起 。 例 如 , 当 Row Key 格式 为 www. apache. org、 mail. 
apache. org 以 及 jira. apache. org 这 样 的 网 站 名 称 时 ,可 以 将 网 站 名 称 进 行 反 转 , 反 转 成 
org. apache. www、org. apache. mail 以 及 org. apache. jira, 然 后 再 进行 存储 ,这 样 的 话 , 所 有 
org. apache 域名 将 会 存储 在 一 起 ,避免 子 域名 ( 即 www、mail\jira) 分 散在 各 处 。 

(2) Timestamp( 时 间 惟 ) 。 

表示 时 间 惟 ,记录 每 次 操作 数据 的 时 间 ,通常 作为 数据 的 版 本 号 。 
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Column Family:cl Column Family:c2 Column Family:c3 


Row Key Timestamp 


Colum Value Colum Value Colum Yalue 


rl t7 cl:col-1| value-l1 | c3:col-1| value-1 
t6 cl:col-2| value-2 c3:col-2| value-2 
t5 cl:col-3| value-3 
t4 

r2 t3 cl:col-l| value-l lc2:col-l|value-l1 lc3:col-l value-1 
t2 cl:col-2 value-2 
tl cl:col-3| value-3 


图 5-1 HBase 的 数据 模型 


(3) Column( 列 )。 

HBase 表 的 列 是 由 列 族 名 、 限 定 符 以 及 列 名 组 成 的 ,其 中 *: "为 限定 符 。 创 建 HBase 
表 不 需要 指定 列 ,因为 列 是 可 变 的 ,非常 灵活 。 

(4) Column Family( 列 族 ) 。 

在 HBase 中 , 列 族 由 很 多 列 组 成 。 在 同一 个 表 里 , 不 同 列 族 有 完全 不 同 的 属性 ,但 是 同 
一 个 列 族 内 的 所 有 列 都 会 有 相同 的 属性 ,因为 它们 都 在 一 个 列 族 里 面 ,而 属性 都 是 定义 在 列 
族 上 的 。cl、c2、c3 均 为 列 族 名 。 


5.2 HBase 的 集群 部 署 


HBase 中 存储 在 HDFS 中 的 数据 是 通过 Zookeeper 协调 处 理 的 。HBase 存在 的 单 点 
故障 问题 ,可 以 通过 Zookeeper 部 署 一 个 高 可 用 的 HBase 集群 解决 。 下 面 , 以 3 台 服 务 器 
为 例 (hadoop01、hadoop02 和 hadoop03) .讲解 如 何 安装 部 署 HBase 集群 。HBase 集群 的 规 
划 方 式 如 图 5-2 所 示 。 

在 图 5-2 中 ,HBase 集群 中 的 hadoop01 和 hadoop02 是 主 节点 ,hadoop02 和 hadoop03 


是 从 节点 。 这 里 之 所 以 将 hadoop02 既 部 署 为 主 节 hadoop01 
点 也 部 署 为 从 节点 ,目的 是 为 了 避免 HBase 集群 CMs 


主 节点 宕 机 导致 的 单 点 故障 问题 。 

接 下 来 ,分 步骤 讲解 如 何 部 署 HBase 集群 , 具 
体 步骤 如 下 。 

(1) 安装 JDK、Hadoop 以 及 Zookeeper, 这 里 
设置 的 JDK 版 本 是 1. 8、Hadoop 版 本 是 2.7.4 以 

hadoop02 hadoop03 

及 Zookeeper 的 版 本 是 3. 4. 10。 (HMaster HRegionServer) (HRegionServer) 

(2) 下 载 HBase 安装 包 。 官 网 下 载 地 址 : 图 5-2 HBase 集群 规划 
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https://archive. apache. org/dist/hbase/。 这 里 选择 下 载 的 版 本 是 1. 2. 1 。 
(3) 上 传 并 解压 HBase 安装 包 。 将 HBase 安装 包 上 传 至 Linux 系统 的 /export/ 
software/ 目 录 下 ,然后 解压 到 /export/servers/ 目 录 。 解 压 安装 包 的 具体 命令 如 下 : 


(4) 将 /hadoop-2.7. 4/etc/hadoop 目录 下 的 hdfs-site. xml 和 core-site. xml 配置 文件 
复制 一 份 到 /hbase-1. 2. 1/conf 目录 下 ,复制 文件 的 具体 命令 如 下 : 


(5) 进入 /hbase-1. 2. 1/conf 目录 修改 相关 配置 文件 。 打 开 hbase-env. sh 配置 文件 , 指 
定 jdk 的 环境 变量 并 配置 Zookeeper( 默 认 是 使 用 内 置 的 Zookeeper 服务 ) ,修改 后 的 hbase- 
env. sh 文件 内 容 具 体 如 下 : 


打开 hbase-site. xml 配置 文件 ,指定 HBase 在 HDFS 的 存储 路 径 、.HBase 的 分 布 式 存 
储 方式 以 及 Zookeeper 地 址 ,修改 后 的 hbase-site. xml 文件 内 容 具 体 如 下 : 


修改 regionservers 配置 文件 ,配置 HBase 的 从 节点 角色 ( 即 hadoop02 和 hadoop03) 。 
具体 内 容 如 下 : 
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修改 ackup-masters 配置 文件 ,为 防止 单 点 故障 配置 备用 的 主 节点 角色 ,具体 内 容 
如 下 : 


修改 profile 配置 文件 ,通过 vi /etc/profile 命令 进入 系统 环境 变量 配置 文件 ,配置 
HBase 的 环境 变量 (服务 器 hadoop01、hadoop02 和 hadoop03 都 需要 配置 ) ,具体 内 容 如 下 : 


将 HBase 的 安装 目录 分 发 至 hadoop02 和 hadoop03 服务 器 上 。 具 体 命令 如 下 : 


在 服务 器 hadoop01 .hadoop02 和 hadoop03 上 分 别 执行 source /etc/profile 命令 ,使 系 
统 环境 配置 文件 生效 。 
(6) 启动 Zookeeper 和 HDFS, 具 体 命 令 如 下 : 


(7) 启动 HBase 集群 ,具体 命令 如 下 : 


这 里 需要 注意 的 是 ,在 启动 HBase 集群 之 前 ,必须 要 保证 集群 中 各 个 节点 的 时 间 是 同 
步 的 , 若 不 同步 会 抛 出 ClockOutOfSyncException 异常 ,导致 从 节点 无 法 启动 。 因 此 需要 在 
集群 各 个 节点 中 执行 如 下 命令 来 保证 时 间 同 步 。 


(8) 通过 jps 命令 检查 HBase 集群 服务 部 署 是 否 成 功 ,如 图 5-3 所 示 。 

从 图 5-3 可 以 看 出 ,服务 器 hadoop01 上 出 现 了 HMaster 进程 ,服务 器 hadoop02 上 出 
现 了 HMaster 和 HRegionServer 进程 ,服务 器 hadoop03 上 出 现 了 HRegionServer 进程 ,证 
明 HBase 集群 安装 部 署 成 功 。 若 需要 停止 HBase 集群 , 则 执行 stop-hbase. sh 命令 。 

下 面 .通过 浏览 器 访问 https://hadoop01:16010, 查 看 HBase 集群 状态 ,如 图 5-4 所 示 。 

从 图 5-4 可 以 看 出 ,服务 器 hadoop01 是 HBase 的 主 节 点 ,服务 器 hadoop02 和 
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图 5-3 查看 HBase 集群 中 的 进程 


DD Master hedoopol 


€ > CT 全 | hadoop0l16010/maslersiatus 


APpACH 
HBRHSE Home TableDetals locallogs loglevel 。 Debug Dump MeticsDump 。 HBase Confguralion 


BE 


Start time 
6020.1542189763458 Wed Nov 14 18 02 43 CST2018 


16020,1542189762548 Wed Nov 14 18 02 42 CST 2018 


图 5-4 HBase 集群 状态 


hadoop03 是 从 节点 。 下 面 ,通过 访问 https://hadoop02:16010 来 查看 集群 备用 主 节 点 的 
状态 ,如 图 5-5 所 示 。 


DD Backup Master: hadoop02 x 


€ 3 C ‘OQ 不 安全 | hadoop02:16010/master-status?filter=all 


RPpACHE 
SE re TbeDetats Locallogs Loglevel DebwDump MetrcsDump HBaseConfiguration 


Backup Master hadoopo2 | 


Current Active Master: hadoop01 


图 5-5 HBase 集群 备用 主 节 点 的 状态 
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从 图 5-5 可 以 看 出 ,服务 器 hadoop02 是 HBase 集群 的 备用 主 节点 ,并 且 可 以 从 Active 
Master 看 出 主 节点 在 正常 工作 。 


5.3 HBase 的 基本 操作 


操作 HBase 常用 的 方式 有 两 种 ,一 种 是 Shell 命令 行 , 另 一 种 是 Java API。 接 下 来 ,本 
节 将 针对 这 两 种 方式 进行 详细 讲解 。 


5.3.1 HBase 的 Shell 操作 


HBase Shell 提供 了 大 量 操作 HBase 的 命令 ,通过 Shell 命令 可 以 很 方便 地 操作 HBase 
数据 库 , 如 创建 删除 及 修改 表 、 向 表 中 添加 数据 、 列 出 表 中 的 相关 信息 等 操作 。 不 过 当 使 用 
Shell 命令 行 操作 HBase 时 ,首先 需要 进入 HBase Shell 交互 界面 。 执 行 bin/hbase shell 命 
令 进 入 到 目录 /hbase-1. 2.1 的 界面 ,具体 效果 如 图 5-6 所 示 。 


Troorteragoop . 
SLF4]: Class eh ont ai ple SLF4] bindings. 
SLF4]: Found bind [si /oxort/server hbase -1.2.1/1ib/s1f4j-1094j12-1.7.5. jar 


!/org/: A We gerBinder .< 
; 多 nd nr :file: /exl ri ‘ers/hadoop-2.7. A Mdeop/eommon/Ib/s! 


4 -1.7.10. jar! 4 
faj 本 和 rn 全 esate ogres nae cl 


| ? Pe 5 for an explanarton. 
s of type, [org.s Log4jLoggerFactor' 
人 uk oe list np og i 
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图 5-6 进入 HBase Shell 的 交互 界面 


进入 HBase Shell 交互 界面 后 ,可 以 通过 一 系列 Shell 命令 操作 HBase, 接 下 来 ,通过 表 
5-1 列举 一 些 操 作 HBase 表 常 见 的 Shell 命令 。 


表 5-1 常见 的 Shell 命令 


命令 名 称 相关 说 明 命令 名 称 相关 说 明 

create 创建 表 count 统计 表 中 数据 的 行 数 

put 插入 或 更 新 数据 delete 删除 指定 行 或 者 列 的 数据 

scan 扫描 表 并 返回 表 的 所 有 数据 deleteall “| 删除 整个 行 或 列 的 数据 

describe “| 查看 表 的 结构 truncate “| 删除 整个 表 中 的 数据 ,但 是 结构 还 在 
get 获取 指定 行 或 列 的 数据 drop 删除 整个 表 , 数 据 和 结构 都 删除 ( 慎 用 ) 


关于 HBase 中 常见 的 Shell 操作 的 讲解 具体 如 下 。 
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1. 创建 表 


通过 create 创建 表 , 具 体 语 法 如 下 : 


在 上 述 语法 中 ,table name 为 表 名 ,创建 表 必 须 指 定 ;column family 为 列 族 名 ,创建 表 
也 必须 指定 。 
例如 ,创建 一 个 名 称 为 student、 列 族 名 为 info 的 HBase 表 , 命 令 如 下 : 


执行 list 命令 ,查看 数据 库 中 的 数据 表 , 命 令 如 下 : 


在 上 述 代码 中 ,出 现 了 student 数据 表 , 说 明 创建 表 成 功 。 
2. 插入 操作 
通过 使 用 put 插入 或 者 更 新 表 中 的 数据 ,具体 语法 如 下 : 


在 上 述 语法 中 ,rowl 为 行 键 ( 即 Row Key) ;column family: column name 为 列 族 名 和 
列 名 ;value 为 插入 列 的 值 。 
例如 ,向 student 表 中 插入 5 条 数据 ,命令 如 下 : 


3. 扫描 操作 
通过 scan 扫描 表 中 的 数据 ,具体 语法 如 下 : 


第 5 章 ， HBase 分布 式 数据 库 ”加 099 


例如 ,扫描 student 表 所 有 的 数据 ,命令 如 下 : 


4. 查看 操作 
通过 describe 查看 表 结构 ,具体 语法 如 下 : 


查看 student 表 的 表 结 构 ,命令 如 下 : 


上 述 代码 中 ,通过 describe 输出 了 student 表 的 结构 , 表 结 构 包 含 很 多 字段 ,具体 介绍 
如 下 : 

(1) NAME: 表示 列 族 名 。 

(2) BLOOMFILTER: 表示 为 列 族 级 别 的 类 型 (读者 只 作 了 解 即 可 ) 。 

(3) VERIONS: 表示 版 本 数 。 

(4) IN_MEMORY: 设置 是 否 存 人 内 存 。 

(5) KEEP_DELETED_CELLS: 设置 被 删除 的 数据 ,在 基于 时 间 的 历史 数据 查询 中 是 
否 依然 可 见 。 

(6) DATA_BLOCK_ENCODING: 表示 数据 块 的 算法 (读者 只 作 了 解 即 可 ) 。 

(7) TTL: 表示 版 本 存活 的 时 间 。 

(8) COMPRESSION: 表示 设置 压缩 算法 。 

(9) MIN_VERSIONS: 表示 最 小 版 本 数 。 

(10) BLOCKCACHE: 表示 是 否 设 置 读 缓存 。 

(11) REPLICATION : 表示 设置 备份 。 
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5. 更 新 操作 
通过 使 用 put 更 新 student 表 指定 字段 的 数据 ,具体 语法 如 下 : 


在 student 表 中 ,将 行 键 为 1001、 列 名 info: age 且 值 为 18 这 一 条 数据 中 的 值 更 新 成 
100 ,命令 如 下 : 


上 述 命令 执行 成 功 后 ,使 用 scan 扫描 数据 表 中 的 数据 ,扫描 结果 如 下 : 


上 述 代 码 中 , 行 键 为 1001、 列 名 为 info: age 且 值 为 18 的 这 条 数据 中 的 值 已 经 更 新 
成 100。 


6. 获取 指定 字段 的 操作 
通过 使 用 get 获取 指定 行 或 指定 列 族 、 列 的 数据 ,具体 语法 如 下 : 


获取 student 表 中 行 键 为 1001 的 数据 ,命令 如 下 : 


7. 统计 操作 
通过 使 用 count 统计 表 中 数据 的 行 数 ,具体 语法 如 下 : 
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统计 student 表 中 数据 的 行 数 ,命令 如 下 : 


8. 删除 操作 
通过 使 用 delete 删除 表 中 “指定 字段 ”的 数据 ,具体 语法 如 下 : 


删除 student 表 中 行 键 为 1002、 列 名 为 info: sex 的 一 条 数据 ,命令 如 下 : 


上 述 命令 执行 成 功 后 ,使 用 scan 扫描 数据 表 中 的 数据 ,扫描 结果 如 下 : 


从 上 述 代码 可 以 看 出 , 行 键 为 1002、 列 名 为 info:sex 的 数据 已 经 被 删除 。 
如 果 要 删除 表 中 一 行 所 有 的 数据 ,可 以 使 用 deleteall 命令 ,具体 语法 如 下 : 


例如 ,删除 student 表 中 行 键 为 1001 的 所 有 数据 ,命令 如 下 : 


上 述 命令 执行 成 功 后 ,使 用 scan 扫描 数据 表 中 的 数据 ,扫描 结果 如 下 : 


从 上 述 代码 可 以 看 出 , 行 键 为 1001 的 所 有 数据 已 经 被 删除 了 。 
通过 使 用 truncate 清空 表 中 的 所 有 数据 ,具体 语法 如 下 : 
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清空 student 表 中 的 所 有 数据 ,命令 如 下 : 


使 用 scan 扫描 数据 表 中 的 数据 ,扫描 结果 如 下 : 


从 上 述 代码 可 以 看 出 , 表 student 中 的 所 有 数据 都 已 经 被 清空 。 
通过 使 用 drop 删除 表 , 具 体 语法 如 下 : 


例如 ,删除 表 student, 命 令 如 下 : 


上 述 代码 中 ,首先 使 用 disable 让 student 表 变 为 禁用 状态 ,然后 进行 删除 操作 。 若 表 
不 是 禁用 状态 , 则 无 法 删除 。 
使 用 list 获取 HBase 数据 库 中 的 所 有 数据 表 , 命 令 如 下 : 


上 述 代 码 中 ,“[ J” 表 示 数 据 库 已 经 为 空 , 说 明 student 表 已 经 被 删除 。 


5.3.2 HBase 的 Java API 操作 


HBase 是 由 Java 语言 开发 的 , 它 对 外 提供 了 Java API 的 接口 。 接 下 来 ,通过 表 5-2 来 
列举 HBase 常见 的 Java API。 

接 下 来 ,通过 Java API 来 操作 HBase 分 布 式 数据 库 ,包括 增 、 删 、 改 以 及 查 等 对 数据 表 
的 操作 ,具体 操作 步骤 如 下 。 
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表 5-2 常见 的 Java API 


类 或 接口 名 称 相关 说 明 
是 一 个 类 ,用 于 建立 客户 端 和 HBase 数据 库 的 连接 ,属于 org. apache. hadoop. 
Admin > 
hbase. client 包 
HBaseConfiguration | 是 一 个 类 ,用 于 将 HBase 配置 添加 到 配置 文件 中 ,属于 org. apache. hadoop. hbase 包 
HTableDescriptor 是 一 个 接口 ,用 于 描述 表 的 信息 ,属于 org. apache. hadoop. hbase 包 


HColumnDescriptor 


是 一 个 类 ,用 于 描述 列 族 的 信息 ,属于 org. apache. hadoop. hbase 包 


Table 是 一 个 接口 ,用 于 实现 HBase 表 的 通信 ,属于 org. apache. hadoop. hbase. client 包 
Put 是 一 个 类 ,用 于 插入 数据 操作 ,属于 org. apache. hadoop. hbase. client 包 

Get 是 一 个 类 ,用 于 查询 单条 记录 ,属于 org. apache. hadoop. hbase. client 包 

Delete 是 一 个 类 ,用 于 删除 数据 ,属于 org. apache. hadoop. hbase. client 包 

Scan 是 一 个 类 ,用 于 查询 所 有 记录 ,属于 org. apache. hadoop. hbase. client 包 

eit 是 一 个 类 ,用 于 查询 返回 的 单条 记录 结果 ,属于 org. apache. hadoop. hbase. 


client 包 


1. 创建 工程 并 导入 依赖 


创建 一 个 名 称 为 spark_chapter05 的 Maven 项 目 ,然后 在 项 目 spark_chapter05 中 配置 
pom. xml 文件 ,也 就 是 引入 HBase 相关 的 依赖 和 单元 测试 的 依赖 ,pom. xml 文件 添加 的 内 


容 具体 如 下 所 示 : 


<!-- 单 元 测试 依赖 --> 


<dependency> 


<groupId>junit< /groupId> 
<artifactId>junit</artifactId> 


<version>4.12< /version> 


</dependency> 


<!--hbase 客户 端 依赖 -> 


<dependency> 


<groupId>org.apache.hbase< /groupId> 
<artifactId>hbase- client< /artifactId> 
<version>1.2.1</version> 


</dependency> 


<!--hbase 核心 依赖 --> 


<dependency> 


<groupId>org.apache .hbase< /groupId> 
<artifactId>hbase- common< /artifactId> 


<version>1.2.1</version> 


</dependency> 


添加 完 相关 依赖 后 ,HBase 相关 Jar 包 就 会 自动 下 载 , 成 功 引入 依赖 如 图 5-7 所 示 。 
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图 5-7 成 功 引入 的 Jar 包 


2. 创建 Java 类 ,连接 集群 


在 项 目 spark_chapter05 目录 /src/main/java 下 创建 一 个 名 为 com. itcast. hbase 的 包 ， 
并 在 该 包 下 创建 HBaseTest. java 文件 ,该 文件 用 于 编写 Java 测试 类 ,构建 Configuration 和 
Connection 对 象 。 初 始 化 客户 端 对 象 的 具体 操作 步骤 ,如 文件 5-1 所 示 。 

文件 5-1 HBaseTest. java 


在 上 述 代码 中 ,第 10 一 12 行 代码 是 初始 化 Configuration 配置 对 象 和 Connection 连接 
对 象 ;第 13 行 代码 注解 是 用 于 Junit 单元 测试 中 控制 程序 最 先 执行 的 注解 ,在 这 里 可 以 保 
证 初始 化 init() 方 法 在 程序 中 是 最 先 执行 的 ;第 16 一 22 行 代码 是 初始 化 客户 端 对 象 的 初始 
化 方法 ,主要 是 获取 Configuration 配置 对 象 和 Connection 连接 对 象 以 及 指定 Zookeeper 集 
群 的 地 址 。 
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3. 创建 数据 表 


在 HBaseTest. Java 文件 中 ,定义 一 个 方法 createTable() ,主要 用 于 演示 创建 数据 表 的 
操作 。 具 体 代码 如 下 : 


在 上 述 代码 中 ,第 4 一 11 行 代码 作用 分 别 为 获取 HBase 表 管 理 器 对 象 admin、 创 建 表 的 
描述 对 象 tableDescriptor 并 指定 表 名 为 tuser_info 、 创 建 两 个 列 族 描述 对 象 hecdl .hcd2 并 
指定 列 族 名 分 别 为 base_info 和 extra_info; 第 13 行 代码 为 列 族 hed2 指定 版 本 数量 ;第 15 
行 代码 将 列 族 描述 对 象 添加 到 表 描 述 对 象 中 ;第 16 行 代码 使 用 表 管 理 器 来 创建 表 ; 第 19 一 20 
行 代码 关闭 表 管 理 器 和 连接 对 象 ,避免 资源 浪费 。 

运行 createTable() 方 法 进行 测试 ,然后 进入 HBase Shell 交互 式 界面 ,执行 list 命令 查 
看 数据 库 , 具 体 代码 如 下 : 


在 上 述 代码 中 ,数据 库 中 有 一 个 名 称 为 t_user_info 的 数据 表 , 说 明 数 据 表 创 建成 功 。 
4. 插入 数据 


在 HBaseTest. Java 文件 中 ,定义 一 个 testPut() 方 法 ,主要 用 于 演示 在 t_user_info 表 
中 插入 数据 的 操作 。 具 体 代码 如 下 : 
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上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 用 于 插入 数据 ;第 6 行 代码 创建 一 个 集 
合 puts, 用 于 存放 Put 对 象 ; 第 8 一 17 行 代码 创建 了 Put 对 象 ,用 于 构建 表 中 的 行 和 列 , 这 里 
创建 了 两 个 Put 对 象 ,并 指定 其 行 键 ;第 19 一 22 行 代码 将 前 面 创建 的 两 个 对 象 添加 到 puts 
集合 中 ,并 通过 表 对 象 table 提交 插入 数据 的 记录 ;第 24 一 25 行 代码 关闭 表 对 象 和 连接 对 
象 ,避免 资源 浪费 。 

运行 testPut() 方 法 进行 测试 ,然后 在 HBase Shell 交互 式 界面 执行 scan 命令 ,查看 数 
据 表 t_user_info 中 的 数据 ,具体 代码 如 下 : 


5. 查看 指定 字段 的 数据 


在 HBaseTest. Java 文件 中 ,定义 一 个 testGet() 方 法 用 于 演示 查看 行 键 为 user001 的 
数据 。 具 体 代码 如 下 : 


23 )} 
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@Test 
public void testGet () throws Exception { 


// 获 取 一 个 table 对 象 

Table table =conn.getTable (TableName .valueOf ("t user info")); 

// 创建 get 查询 参数 对 象 ,指定 要 获取 的 是 哪 一 行 

Get get =new Get ("user001".getBytes ()); 

// 返 回 查 询 结果 的 数据 

Result result =table.get (get) 7 

// 获 取 结果 中 的 所 有 cell 

List<Cell>cells =result.1listCells(); 

// 人 遍历 所 有 的 cell 

for(Cell c:cells){ 

// 获 取 行 键 

System.out .println(" 行 :"+Bytes.tostring (CellUtil.cloneRow (cell1))); 
// 得 到 列 族 

System.out.println (" 列 族 :"+Bytes.tostring (CellUtil.cloneFamily (cell))); 
System.out .println(":"+Bytes.tostring (CellUtil.cloneQualifier (cel1l1))); 
System.out.println(" 值 :"+Bytes.tostring(CellUtil.cloneValue (cell))); 

1 

// 关 闭 

table.close (); 

conn.close(); 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 查看 的 数据 表 t_user_info; 
第 6 行 代码 创建 一 个 对 象 get ,并 指定 要 查看 数据 表 行 键 为 user001 的 所 有 数据 ;第 8 一 10 
行 代码 通过 表 对 象 table 调用 get() 方 法 把 行 键 为 user001 的 所 有 数据 放 到 集合 cells 中 ;第 
12 一 18 行 代码 遍历 打印 集合 cells 中 的 所 有 数据 ;第 21 一 22 行 代码 关闭 表 对 象 和 连接 对 象 , 避 


免 资源 浪费 。 
运行 testGet() 方 法 进行 测试 ,可 以 从 IDEA 控制 台 查 看 输出 的 内 容 , 如 图 5-8 所 示 。 
Run: | 
*| 圈 章 | 4 乓 | 三» @Tests passed: lofltest-2s113ms 
内 D:\develop\software\window\Java\jdk1.8.0 151\bin\java.exe 装修 
入 图 testGet 25113ms| 1og4j:WRRN No appenders could be found for logger (org.apat vy 
1og4j :WRRN Please initialize the 1og4j system properly. 
mn 10g4j:WARN See http://logging.apache.org/10g4j/1.2/faq.htmll 寺 
a 行 键 :user001 EE 
列 族 :base_info 
习 列 :Pens 
= 值 :123456 - 
行 键 :user001 
力 列 疼 :base_info 
列 :username 
| |[ 值 : zhangsan 
图 5-8 查看 数据 表 t_user_info 中 行 键 为 user001 的 数据 
从 图 5-8 可 以 看 出 , 行 键 为 user001 的 数据 一 共有 两 条 ,一 条 是 行 键 为 user001、 列 族 为 


base_info、 列 为 password、 值 为 123456 的 数据 ; 另 一 条 是 行 键 为 user001、 列 族 为 baseinfo、 
列 为 username、 值 为 zhangsan 的 数据 。 
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6. 扫描 数据 


在 HBaseTest. Java 文件 中 ,定义 一 个 testScan() 方 法 用 于 演示 扫描 t_user_info 表 中 
所 有 数据 的 操作 。 具 体 代码 如 下 : 


上 述 代码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 查看 的 数据 表 t_user_info; 
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第 6 行 代码 创建 一 个 全 表 扫 描 对 象 scan; 第 8 一 10 行 代码 通过 表 对 象 table 调用 getScanner() 
方法 扫描 表 中 的 所 有 数据 ,并 将 扫描 到 的 所 有 数据 存放 人选 代 器 中 ;第 12 一 35 行 代码 遍历 
输出 迭代 器 中 的 数据 ;第 40 一 41 代码 关闭 表 对 象 和 连接 对 象 , 避 免 资源 浪费 。 

运行 testScan() 方 法 进行 测试 ,可 以 从 IDEA 控制 台 查 看 输出 内 容 , 如 图 5-9 所 示 。 


贺 章 | :二 | » @Tests passed:1ofltest-1s485ms 
D:\develop\software\window\Java\jdk1.8.0 151\bin\java.exe ... 

图 testscan 15485 ms| 1og4]j:WRRN No appenders could be found for logger (org.apache.hadooB| 
log4j:WARN Please initialize the 10g4] system properly. 

1og4j :WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig 
行 键 :user001 

列 浇 :base_info 列 :password 值 :123456 

行 键 :user001 

列 族 :base_info 列 :username 值 :zhangsan 


UI 


列 族 :base_info 列 :username 值 :1isi 


行 键 :user002 


图 5-9 扫描 t_user_info 表 中 的 数据 


在 图 5-9 中 ,控制 台 把 t_user_info 表 中 所 有 的 数据 都 遍历 输出 。 
7. 删除 指定 列 的 数据 


在 HBaseTest. Java 文件 中 ,定义 一 个 testDel() 方 法 用 于 演示 删除 t_user_info 表 中 行 
键 为 user001 的 数据 的 操作 。 具 体 代 码 如 下 : 


于 
4 
3 
4 
号 
6 
8 
9 


@Test 
pubic void testDel () throws Exception { 


) 


// 获 取 table 对 象 

Table table =conn.getTable (TableName.valueOf ("t_ user info")); 
// 获 取 delete 对 象 , 需 要 一 个 rowkey 

Delete delete =new Delete ("user001".getBytes ()); 

// 在 delete 对 象 中 指定 要 删除 的 列 族 - 列 名 称 

delete.addcolumn ("base info".getBytes(), "password".getBytes ()); 
// 执 行 删除 操作 

table.delete (delete); 

// 关 闭 

table.close(); 

conn.close(); 


上 述 代 码 中 ,第 4 行 代码 创建 一 个 表 对 象 table, 并 指定 要 查看 的 数据 表 t_user_info; 第 
6 一 8 行 代码 创建 一 个 删除 对 象 delete, 并 指定 要 删除 行 键 为 user001、 列 族 为 base_info、 列 
名 为 password 的 这 一 条 数据 ;第 10 行 代码 通过 表 对 象 table 调用 delete() 方 法 执行 删除 操 
作 ; 第 12 一 13 代码 关闭 表 对 象 和 连接 对 象 ,避免 资源 浪费 。 

运行 testDel() 方 法 进行 测试 ,然后 在 HBase Shell 交互 式 界面 执行 scan 命令 ,查看 数 
据 表 t_user_info 中 的 数据 ,具体 代码 如 下 : 
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在 上 述 代码 中 ,发 现行 键 为 user001、 列 族 为 base_info 且 列 名 为 password 的 一 列 数据 
没有 显示 出 来 ,说 明 这 一 列 数 据 已 经 被 删除 。 


8. 删除 表 


在 HBaseTest.Java 文件 中 ,定义 一 个 testDrop() 方 法 用 于 演示 删除 t_user_info 表 的 
操作 。 上 有 具体 代码 如 下 : 


在 上 述 代 码 中 ,第 4 行 代码 创建 一 个 表 对 象 admin; 第 6 行 代码 通过 表 对 象 admin 调用 
disableTable() 方 法 将 表 t_user_info 设置 为 不 可 用 状态 ;第 7 行 代码 通过 表 对 象 admin 调 
用 deleteTable() 方 法 执行 删除 表 操 作 ; 第 12 一 13 代码 关闭 表 对 象 和 连接 对 象 ,避免 资源 
浪费 。 

运行 testDel() 方 法 进行 测试 ,然后 进入 HBase Shell 的 交互 式 界面 ,执行 list 命令 查看 
HBase 分 布 式 数据 库 中 的 表 , 具 体 代码 如 下 : 


在 上 述 代码 中 ,输出 的 结果 为 [ ] ,表示 数据 库 为 空 ,说 明 t_user_info 表 已 经 被 成 功 
删除 。 


5.4 深入 学 习 HBase 原理 


俗话 说 , 知 其 然 知 其 所 以 然 .深入 学 习 HBase 底层 的 原理 ,可 以 让 读者 更 好 地 理解 
HBase 分 布 式 数据 库 。 接 下 来 ,本 节 详 细 讲 解 HBase 原理 。 


第 5 章 HBase 分 布 式 数 据 库 


5.4.1 HBase 架构 


HBase 构建 在 HDFS 之 上 ,HDFS 为 HBase 提供 了 高 可 靠 的 底层 存储 支持 , Hadoop 
MapReduce 为 HBase 提供 了 高 性 能 的 计算 能 力 ,Zookeeper 为 HBase 提供 了 稳定 的 服务 和 
容错 机 制 。 下 面 ,通过 图 5-10 介绍 HBase 的 整体 架构 。 


图 5-10 HBase 架构 


在 图 5-10 中 ,HBase 含有 多 个 组 件 。 下 面 , 针 对 HBase 架构 中 的 核心 组 件 进行 详细 介 
绍 ,具体 如 下 。 

(1) Client。 即 客户 端 , 它 通过 RPC 协议 与 HBase 进行 通信 。 

(2) Zookeeper。 即 分 布 式 协调 服务 ,在 HBase 集群 中 的 主要 作用 是 监控 HRegionServer 
的 状态 ,将 HRegionServer 的 上 下 线 信息 实 时 通知 给 HMaster, 确 保 集 群 中 只 有 一 个 HMaster 
在 工作 。 

(3) HMaster。 即 HBase 的 主 节点 ,用 于 协调 多 个 HRegionServer, 主要 用 于 监控 
HRegionServer 的 状态 以 及 平衡 HRegionServer 之 间 的 负载 。 除 此 之 外 ,HMaster 还 负责 
为 HRegionServer 分 配 HRegion。 

在 HBase 中 ,如 果 有 多 个 HMaster 节点 共存 ,提供 服务 的 只 有 一 个 Master, 其 他 的 
Master 处 于 待命 的 状态 。 如 果 当 前 提供 服务 的 HMaster 节点 宕 机 ,那么 其 他 的 HMaster 
会 接管 HBase 的 集群 。 

(4) HRegionServer。 即 HBase 的 从 节点 , 它 包 括 了 多 个 HRegion ,主要 用 于 响应 
的 IO 请 求 ,向 HDFS 读 写 数据 。 

(5) HRegion。 即 HBase 表 的 分 片 ,每 个 Region 中 保存 的 是 HBase 表 中 某 段 连续 的 
数据 。 

(6) Store。 每 一 个 HRegion 包含 一 个 或 多 个 Store。 每 个 Store 用 于 管理 一 个 Region 
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上 的 一 个 列 族 。 

(7) MemStore。 即 内 存 级 缓存 ,MemStore 存放 在 Store 中 ,用 于 保存 修改 的 数据 ( 即 
Key Values 形式 )。 当 MemStore 存储 的 数据 达到 一 个 阔 值 (默认 128MB) 时 ,数据 就 会 被 
执行 flush 操作 ,将 数据 写 人 到 StoreFile 文件 。MemStore 的 flush 操作 是 由 专门 的 线程 负 
责 的 。 

(8) StoreFile。 MemStore 中 的 数据 写 到 文件 后 就 是 StoreFile, StoreFile 底层 是 以 
HFile 的 格式 保存 在 HDFS 上 。 

(9) HFile。 即 HBase 中 键 值 对 类 型 的 数据 均 以 HFile 文件 格式 进行 存储 。 

(10) HLog。 即 预 写 日 志文 件 ,负责 记录 HBase 的 修改 。 当 HBase 读 写 数据 时 ,数据 
不 是 直接 写 进 磁盘 ,而 是 会 在 内 存 中 保留 一 段 时 间 。 这 样 , 当 数 据 保存 在 内 存 中 时 ,很 有 可 
能 会 丢失 。 如 果 将 数据 写 入 预 写 日 志文 件 中 ,然后 再 写 入 到 内 存 中 ,一 旦 系统 出 现 故障 时 ， 
则 可 以 通过 这 个 日 志文 件 恢复 数据 。 


5.4.2 物理 存储 


HBase 分 布 式 数据 库 最 重要 的 功能 就 是 存储 数据 。 下 面 , 从 4 个 方面 详细 介绍 HBase 
的 物理 存储 。 

(1) HBase 表 的 数据 按照 行 键 Row Key 的 字典 序 进 行 排列 ,并 且 切 分 多 个 HRegion 存 
储 ,存储 方式 如 图 5-11 所 示 。 

(2) 每 个 Region 存储 的 数据 是 有 限 的 ,如 果 当 Region 增 大 到 一 个 阔 值 (128MB) 时 ,会 
被 等 切 分 成 两 个 新 的 Region, 切 分 方式 如 图 5-12 所 示 。 


Table 


湾 Regi Te Table 
= 一 一 一 一 
时 Region < 
天 se 
他 na Region Region 
昌 Region CN 
1 4 Region 
< Resion, Region Region 
N= 
图 5-11 Region 在 行 方 向 上 的 存储 图 5-12 HRegion 的 切 分 


(3) 一 个 HRegionServer 上 可 以 存储 多 个 Region ,但 是 每 个 Region 只 能 被 分 布 到 一 个 
HRegionServer 上 ,分 布 方式 如 图 5-13 所 示 。 

(4) MemStore 中 存储 的 是 用 户 写 入 的 数据 ,一 旦 MemStore 存储 达到 阔 值 时 ,里 面 存 
储 的 数据 就 会 被 刷新 到 新 生成 的 StoreFile 中 (底层 是 HFile) ,该 文件 是 以 HFile 的 格式 存 
储 到 HDFS 上 ,具体 如 图 5-14 所 示 。 
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Table Table RegionServers 


图 5-13 HRegion 的 分 布 


Region 


2 7 
Region i 


Table Region 


Store Store Store 


Region 一 一, [ memStore | [memstore]| | memstore | 


N= 
Region 


图 5-14 HBase 表 的 存储 


5.4.3 寻 址 机 制 


HBase 表 查 询 数据 遵循 一 定 的 寻 址 机 制 , 接 下 来 ,通过 图 5-15 来 学 习 HBase 的 寻 址 
机 制 。 

在 图 5-15 中 ,Zookeeper 中 存储 的 是 ROOT 表 的 数据 ,而 ROOT 表 中 存储 的 是 META 
表 的 Region 信息 ,也 就 是 所 有 RegionServer 的 地 址 。 接 下 来 ,分 步骤 介绍 HBase 的 寻 址 流 
程 ,具体 如 下 。 

(1) Client 通过 访问 ZooKeeper 来 请 求 行 键 rk001 数据 所 在 的 RegionServer 地 址 ; 

(2) Zookeeper 从 ROOT 表 中 查询 所 有 表 的 META 信息 ; 

(3) META 表 将 具体 存储 行 键 rk001 数据 的 RegionServer 的 地 址 返回 给 Client, 相 当 
于 Client 是 从 Zookeeper 中 META 表 中 查询 到 RegionServer 的 地 址 的 ; 

(4) Client 获取 到 RegionServer 地 址 后 .直接 向 该 RegionServer 发 送 查 询 行 键 为 
rk001 的 这 条 数据 的 请 求 ,RegionServer 收 到 请 求 ,就 会 查询 行 键 rk001 的 Region; 

(5) RegionServer 将 行 键 为 rk001 这 条 数据 的 所 有 信息 返回 给 Client。 
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zookeeper 集 群 ROOT 表 
2 
SS RowKey regionInfo Server 
1 .META, Tablel,... i RS1 
-META, Table2,... i RS3 
| META 表 
RowKey regionInfo server 
3 Tablel,rk000,... RS1 
Table2,rk000,... 总 RS2 


图 5-15 HBase 的 寻 址 机 制 


小 提示 : 

在 HBase 中 ,有 两 个 比较 特殊 的 表 , 分 别 是 ROOT 表 和 META 表 。 其 中 ,ROOT 表 只 
有 一 个 Region, 且 不 会 进行 切 分 ;而 META 表 中 存储 着 RegionServer, 且 RegionServer 还 
可 以 被 切 分 成 多 个 Region。 


5.4.4 ”HBase 读 写 数据 流程 


数据 库 最 常见 的 操作 就 是 读 写 数据 , 接 下 来 ,针对 HBase 读 写 数据 的 流程 进行 详细 
介绍 。 


1. 读数 据 流程 


从 HBase 中 读数 据 的 流程 其 实 就 是 寻 址 的 流程 ,具体 流程 如 下 : 

(1) Client 通过 ZooKeeper、ROOT 表 以 及 META 表 来 找到 目标 数据 所 在 的 
RegionServer 地 址 ( 即 目标 数据 所 在 Region 的 服务 器 地 址 ); 

(2) Client 通过 请 求 RegionServer 地 址 来 查询 目标 数据 ; 

(3) RegionServer 定位 到 目标 数据 所 在 的 Region ,然后 发 出 查询 目标 数据 的 请 求 ， 

(4) Region 先 在 MemStore 中 查找 目标 数据 , 若 查找 到 , 则 返回 ; 若 查找 不 到 , 则 继续 在 
StoreFile 中 查找 。 


2. 写 数据 流程 


即 存储 数据 ,从 客户 端 把 目标 数据 存储 到 服务 器 上 。 具 体 流程 如 下 : 
(1) Client 根据 行 键 RowKey 找到 对 应 的 Region 所 在 的 RegionServer; 
(2) Client 向 RegionServer 发 送 写 人 数据 的 请 求 ; 

(3) RegionServer 找到 目标 Region; 

(4) Region 检查 数据 是 否 与 Schema 一 致 ; 

(5) 若 Client 没有 指定 版 本 , 则 获取 当前 系统 的 时 间作 为 数据 版 本 ; 

(6) 将 更 新 的 记录 写 人 预 写 日 志 HLog 和 MemStore 中 ; 
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(7) 判断 MemStore 是 否 已 满 , 若 满 则 进行 flush 操作 ,将 数据 写 人 StoreFile 文件 , 反 
之 , 则 直接 将 数据 存 人 MemStore。 


5.5 HBase 和 Hive 的 整合 


在 实际 业务 中 ,由 于 HBase 不 支持 使 用 SQL 语法 ,因此 操作 和 计算 HBase 分 布 式 数据 
库 中 的 数据 是 非常 不 方便 的 ,并 且 效率 也 低 。 由 于 Hive 支持 标准 的 SQL 语句 ,因此 ,可 以 
将 HBase 和 Hive 进行 整合 ,通过 使 用 Hive 数据 仓库 操作 HBase 分 布 式 数据 库 中 的 数据 ， 
以 此 来 满足 实际 业务 的 需求 。 

接 下 来 ,通过 一 个 整合 Hive 和 HBase 的 例子 ,实现 Hive 表 中 插入 的 数据 可 以 从 
HBase 表 中 获取 ,具体 步骤 如 下 。 


1. 环境 搭建 


首先 ,需要 配置 环境 变量 。 在 服务 器 hadoop01 上 执行 命令 vi/etc/profile, 配 置 Hive 和 
HBase 的 环境 变量 (车 已 配置 , 则 可 忽略 ) ,具体 内 容 如 下 : 


+ 配置 HBBase 的 环境 变量 

export HBASE HOME=/export/servers/hbase-1.2.1 

export PATH=$ PATH:$ HBASE HOME/bin: 

+ 配置 Hive 的 环境 变量 

export HIVE HOME=/export/servers/apache-hive-1.2.1-bin 
export PATH=$ PATH:$ HIVE HOME/bin: 


2. 导入 依赖 


将 目录 /hbase-1. 2. 1/lib 下 的 相关 依赖 复制 一 份 到 目录 /apache-hive-1. 2. 1-bin/lib 下 ， 
具体 命令 如 下 : 


$cp /export/servers/hbase-1.2.1/1ib/hbase- common-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase- server-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase- client-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase-protocol-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase-it-1.2.1 \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/htrace-core-3.1.0-incubating.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase-hadoop2-compat-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 

$cp /export/servers/hbase-1.2.1/lib/hbase-hadoop- compat-1.2.1.jar \ 
/export/servers/apache-hive-1.2.1-bin/lib 
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上 述 命令 导 人 了 很 多 依赖 ,具体 含义 如 下 : 

(1) hbase-common-1. 2. 1. jar 是 HBase 基本 包 ; 

(2) hbase-server-1. 2. 1. jar 主要 用 于 HBase 服务 端 ; 

(3) hbase-client-1. 2. 1. jar 主要 用 于 HBase 客户 端 ; 

(4) hbase-protocol-1. 2. 1. jar 主要 用 于 HBase 的 通信 ; 

(5) hbaserit-1. 2. 1 主要 用 于 HBase 整合 其 他 框架 做 测试 ; 

(6) htrace-core-3. 1. 0-incubating. jar 主要 用 于 其 他 框架 (如 Hive 或 者 Spark) 连 接 
HBase; 

(7) hbase-hadoop2-compat-1. 2. 1. jar 和 hbase-hadoop-compat-1. 2. 1. jar 使 得 HBase 
可 以 兼容 hadoop2.0 和 其 他 的 hadoop 版 本 。 


3. 修改 相关 配置 文件 


在 /apache-hive-1. 2. 1-bin/conf 目录 下 的 hive-site. xml 文件 中 ,添加 Zookeeper 集群 
的 地 址 并 指定 Zookeeper 客户 端的 端口 号 ,修改 后 的 hive-site. xml 文件 内 容 如 下 : 


执行 命令 source /etc/profile, 使 配置 的 环境 变量 生效 。 
4. 启动 相关 的 服务 
启动 Zookeeper、Hadoop、MySQL、Hive 以 及 HBase 服务 .具体 命令 如 下 : 


5. 新 建 Hive 表 


在 Hive 数据 库 创 建 hive_hbase_emp_table 表 , 具 体 语句 如 下 : 
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在 上 述 语 句 中 ,org. apache. hadoop. hive. hbase. HBaseStorageHandler 类 主要 用 于 将 
Hive 与 HBase 相关 联 , 在 Hive 中 创建 的 表 会 映射 到 HBase 数据 库 中 ,并 将 映射 到 HBase 
数据 库 中 的 表 命 名 为 hbase_emp_table。 

执行 上 述 语句 后 ,在 Hive 中 ,执行 命令 show tables 查看 是 否 出 现 表 hive_hbase_emp_ 
table; 在 HBase 中 ,执行 命令 list 查看 是 否 出 现 表 hbase_emp_table, 具 体 命令 如 下 : 


从 上 述 返 回 结 果 可 以 看 到 ,Hive 中 包含 hive_hbase_emp_table 表 , HBase 中 包含 hbase 
_emp_table 表 , 说 明 Hive 与 HBase 整合 成 功 后 ,可 以 在 Hive 中 创建 与 HBase 相关 联 
的 表 。 


6. 创建 Hive 临时 中 间 表 


由 于 不 能 将 数据 直接 插入 与 HBase 关联 的 Hive 表 hive_hbase_emp_table 中 ,所 以 需 
要 创建 中 间 表 emp ,命令 如 下 : 
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上 述 命令 执行 成 功 后 ,在 Hive 中 执行 语句 show tables 查看 Hive 中 的 数据 表 , 具 体 语 


从 上 述 代 码 可 以 看 出 ,Hive 的 临时 中 间 表 emp 已 经 创建 完成 。 

接 下 来 就 往 临 时 中 间 表 插入 数据 。 插 入 数据 之 前 需 在 Linux 本 地 系统 上 创建 文件 
emp. txt( 这 里 存放 在 目录 /export/data 下 ), 且 每 个 字段 对 应 的 数据 都 是 用 Tab 制 表 符 分 
隔 , 若 对 应 的 字段 没有 数据 , 则 用 空格 表示 ,具体 内 容 如 文件 5-2 所 示 。 

文件 5-2 emp. txt 


7. 插入 数据 
向 临时 中 间 表 emp 插入 数据 ,具体 语句 如 下 : 


通过 insert 命令 将 临时 中 间 表 emp 中 的 数据 导入 到 hive_hbase_emp_table 表 中 ,具体 


通过 查看 hive_hbase_emp_table 表 和 hbase_emp_table 表 的 数据 是 否 一 致 ,来 判断 
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HBase 和 Hive 是 否 整合 成 功 , 具 体 语句 如 下 : 


hive>select * from hive hbase emp table; 
hbase>scan 'hbase emp table' 


执行 上 述 语句 ,能 够 查询 出 hive_hbase_emp_table 表 和 hbase_emp_table 表 中 的 所 有 
数据 。 这 里 展示 一 部 分 结果 数据 ,具体 代码 如 下 : 


hive>select * fromhive hbase emp table; 


OK 

7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 20 

7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30 

hbase (main) :028:0>scan 'hbase emp table' 

ROW COLUMN+ CELL 

7369 column=info:deptno, timestamp=1545798078117, value=20 

7369 column=info:ename, timestamp=1545798078117, value=SMITH 

7369 column=info:hiredate, timestamp=1545798078117, value=1980-12-17 
7369 column=info:job, timestamp=1545798078117, value=CLERK 

7369 column=info:mgr, timestamp=1545798078117, value=7902 

7369 column=info:sal, timestamp=1545798078117, value=800.0 

7499 column=info:comm, timestamp=1545798078117, value=300.0 

7499 column=info:deptno, timestamp=1545798078117, value=30 

7499 column=info:ename, timestamp=1545798078117, value=ALLEN 

7499 column=info:hiredate,timestamp=1545798078117,value=1981- 2-20 
7499 column=info:job, timestamp=1545798078117, value=SALESMAN 

7499 column=info:mgr, timestamp=1545798078117, value=7698 

7499 column=info:sal, timestamp=1545798078117, value=1600.0 


从 上 述 代码 中 可 以 看 出 , 表 hive_hbase_emp_table 的 empno 为 7369 和 7499 的 数据 与 
表 hbase_emp_table 的 数据 是 一 一 对 应 的 ,说 明 Hive 与 HBase 整合 成 功 。 
注意 : 在 5.5 节 中 ,读者 创建 表 hive_hbase_emp_table 时 ,有 可 能 会 报错 ,如 图 5-16 所 示 。 


| 1921681211%4 x | 加 192168121134 02) | 192168121134 (1) | @@ 192168.121.135 |@192168.121136 


> empno int, 

> ename string, 

> job string, 

r int， 

> redate string, 

> sal double, 

> comm double, 

> deptno int) 

> STORED BY 'org. apache.hadoop.hive.hbase. HBaseStor. er 
上 a, ee Chbase. columns- mapping” ‘ey, info:ename, info:job, info:mgr ,info:hiredate, info:sal, info:comm,i 

0: ceres 


nro et Execution Ee return EE 1 i org. ee 下 Five. ql. exec. DOLTask. org. apache. hadoop. hbase. HTableDescripto 
/hb 


ssh2: AES-256-CTR 16, 7 16Rows, 123 Cols VT100 


图 5-16 ”报错 情况 


图 5-16 所 示 的 错误 是 由 Hive 版 本 和 HBase 版 本 不 兼容 造成 的 ( 注 : Hive 1. x 将 与 
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HBase 0. 98. x 及 更 低 版 本 保持 兼容 ,而 Hive 2. x 将 与 HBase 1. x 及 更 高 版 本 兼容 ), 所 以 
如 果 Hive 1.x 版 本 和 HBasel.x 及 更 高 版 本 整合 时 ,需要 重新 编译 目录 /apache-hive-1. 2. 
1-bin/lib 下 的 hive-hbase-handler-1. 2. 1. jar 依赖 ,具体 编译 方法 读者 可 以 自行 查询 相关 资 
料 , 本 书 不 做 详细 讲解 。 


5.6 本 章 小 结 
本 章 主 要 介绍 HBase 分 布 式 数据 库 的 相关 知识 ,包括 HBase 的 数据 模型 HBase 集 


群 部 署 `HBase 的 基本 操作 、HBase 原理 以 及 HBase 和 Hive 的 整合 。 通 过 本 章 的 学 习 , 希 
望 读者 能 够 熟练 整合 HBase 和 Hive, 并 掌握 对 庞大 的 数据 表 进 行 查询 ,分 析 统 计 等 操作 。 


5.7 课 后 习题 


一 、 填 空 题 

1. HBase 是 一 个 \ 高 性 能 、 \ 可 伸缩 的 分 布 式 数据 库 。 
2，HBase 是 构建 在 之 上 ,并 为 HBase 提供 了 高 可 靠 的 底层 存储 支持 。 
3， HBase 是 通过 协议 与 客户 端 进行 通信 。 

4. HBase 表 的 数据 按照 的 字典 序 进 行 排列 。 


5. 当 MemStore 存储 的 数据 达到 一 个 阔 值 时 .MemStore 里 面 的 数据 就 会 被 flush 到 
StoreFile 文件 ,这 个 阔 值 默认 是 。 


二 、 判 断 题 


1. HBase 起 源 于 2006 年 Google 发 表 的 BigTable 论文 。 

2. HBase 是 基于 行进 行 存储 的 。 

3，HBase 中 ,车 有 多 个 HMaster 节点 共存 , 则 所 有 HMaster 都 提供 服务 。 
4. StoreFile 底层 是 以 HFile 文件 的 格式 保存 在 HDFS 上 。 

5. 在 HBase 中 , 往 HBase 写 数据 的 流程 就 是 一 个 寻 址 的 流程 。 


一 一 一 ~ 


三 、 选 择 题 
1. 下 列 选项 中 ,哪个 不 属于 HBase 的 特点 ? ( ) 

A. 面向 列 B. 容量 小 C. 多 版 本 D. 扩展 性 
2. 下 列 选项 中 ,HBase 是 将 哪个 作为 其 文件 存储 系统 的 ? 〈 ) 

A. MySQL B. GFS C. HDFS D. MongoDB 
3. HBase 官方 版 本 不 可 以 安装 在 什么 操作 系统 F? (  ) 

A. CentOS B. Ubuntu C. RedHat D. Windows 
四 、 简 答题 


1. 简 述 HBase 分 布 式 数据 库 与 传统 数据 库 的 区 别 。 
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2. 简 述 HBase 读 写 数据 的 流程 。 
五 、 编 程 题 


通过 HBase 的 Java API 编程 ,实现 以 下 操作 : 
(1) 创建 一 张 表 名 为 t_user_info、 列 族 名 分 别 为 base_info 和 extra_info 的 HBase 数 


据 表 。 


(2) 向 创建 好 的 HBase 数据 表 中 进行 插入 数据 的 操作 。 
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学 习 目 标 

。 掌握 基本 的 消息 传递 模式 。 

。 掌握 Kafka 集群 部 署 的 方法 。 

。 掌握 Kafka 的 基本 操作 方法 。 

。 了 解 Kafka Streams API 的 使 用 方法 。 


Kafka 是 一 个 高 吞吐 量 的 分 布 式 发 布 订 阅 消 息 系统 , 它 在 实时 计算 系统 中 有 着 非常 强 
大 的 功能 。 通 常情 况 下 ,使 用 Kafka 构建 系统 或 应 用 程序 之 间 的 数据 管道 ,用 来 转换 或 响应 
实时 数据 ,使 数据 能 够 及 时 地 进行 业务 计算 ,得 出 相应 结果 。 本 章 将 针对 Kafka 工作 原理 、 
Kafka 集群 部 署 以 及 Kafka 的 基本 操作 进行 详细 讲解 。 


6.1 Kafka 的 基础 知识 


6.1.1 消息 传递 模式 简介 


大 数据 系统 面临 的 首要 困难 是 海量 数据 之 间 该 如 何 进 行 传输 。 为 了 解决 大 数据 集 的 传 
输 困难 ,就 必须 要 构建 一 个 消息 系统 。 

一 个 消息 系统 负责 将 数据 从 一 个 应 用 程序 传递 到 另外 一 个 应 用 程序 中 ,应 用 程序 只 关 
注 数据 ,无 须 关 注 数据 在 多 个 应 用 之 间 是 如 何 传递 的 ,分 布 式 消息 传递 基于 可 靠 的 消息 队 
列 ,在 客户 端 应 用 和 消息 系统 之 间 异 步 传 递 消息 。 

目前 市 面 上 有 许多 消息 系统 ,如 Kafka、RabbitMQ、ActiveMQ 等 。Kafka 是 专门 为 分 
布 式 高 吞吐 量 系统 而 设计 开发 的 , 它 非 常 适合 在 海量 数据 集 的 应 用 程序 中 进行 消息 传递 。 
消息 传递 一 共有 两 种 模式 ,分 别 是 点 对 点 消息 传递 模式 和 发 布 订阅 消息 传递 模式 。 接 下 来 ， 
详细 讲解 消息 传递 的 两 种 模式 。 


1. 点 对 点 消息 传递 模式 


点 对 点 消息 传递 模式 (Point to Point,P2P) ,通常 是 一 个 基于 拉 取 或 者 轮 询 的 消息 传递 
模式 ,其 消息 传递 结构 如 图 6-1 所 示 。 

图 6-1 所 示 的 点 对 点 消息 传递 模式 结构 中 ,消息 是 通过 一 个 虚拟 通道 进行 传递 的 ,生产 
者 发 送 一 条 数据 ,消息 将 持久 化 到 一 个 队列 中 ,此 时 将 有 一 个 或 者 多 个 消费 者 会 消费 队列 中 
的 数据 ,但 是 一 条 消息 只 能 被 消费 一 次 ,并 且 消 费 后 的 消息 会 从 消息 队列 中 删除 ,因此 ,即使 
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生产 者 一 | 队列 一 =| 消费 者 


图 6-1 点 对 点 消息 传递 模式 结构 
有 多 个 消费 者 同时 消费 数据 ,数据 都 可 以 被 有 序 处 理 。 
2. 发 布 订阅 消息 传递 模式 


发 布 订阅 消息 传递 模式 (Publish/Subscribe) 是 一 个 基于 推送 的 消息 传送 模式 ,其 消息 
传递 结构 如 图 6-2 所 示 。 


订阅 者 A 
发 布 者 [一 =| 主题 RS 
订阅 者 B 


图 6-2 发 布 订阅 消息 传递 模式 结构 


从 图 6-2 可 以 看 出 ,在 发 布 订阅 模式 中 ,发 布 者 用 于 发 布 消息 ,订阅 者 用 于 订阅 消息 ， 
发 布 订阅 模式 可 以 有 多 种 不 同 的 订阅 者 ,发 布 者 发 布 的 消息 会 被 持久 化 到 一 个 主题 中 ,与 点 
对 点 模式 不 同 的 是 ,订阅 者 可 以 订阅 一 个 或 多 个 主题 ,订阅 者 可 以 读 取 该 主题 中 的 所 有 数 
据 , 同 一 条 数据 可 以 被 多 个 订阅 者 消费 ,数据 被 消费 后 也 不 会 立即 删除 。 


6.1.2 Kafka 简介 


Kafka 是 由 Apache 软件 基金 会 开发 的 一 个 开源 流 处 理 平台 , 它 使 用 Scala 和 Java 语言 
编写 ,是 一 个 基于 Zookeeper 系统 的 分 布 式 发 布 订阅 消息 系统 ,该 项 目的 设计 初衷 是 为 实时 
数据 提供 一 个 统一 \ 高 通 量 . 低 等 待 的 消息 传递 平台 。 在 0. 10 版 本 之 前 ,Kafka 只 是 一 个 消 
息 系统 ,主要 用 来 解决 应 用 解 耦 .异步 消息 等 问题 ,在 0. 10 版 本 之 后 ,Kafka 推出 了 连接 器 
与 流 处 理 的 功能 ,使 其 逐渐 成 为 一 个 流 式 数据 平台 。 

ApacheKafka 作为 分 布 式 消 息 系统 ,可 以 处 理 大 量 的 数据 ,并 能 够 将 消息 从 一 个 端点 传 
递 到 另外 一 个 端点 。Kafka 系统 在 大 数据 领域 中 的 应 用 非常 普遍 , 它 能 够 在 离线 和 实时 两 
种 大 数据 计算 架构 中 处 理 数据 ,这 得 益 于 Kafka 的 众多 优点 ,其 优点 具体 如 下 。 

(1) 解 厢 。Kafka 具备 消息 系统 的 优点 ,只 要 生产 者 和 消费 者 数据 两 端 遵循 接口 约束 ， 
就 可 以 自行 扩展 或 修改 数据 处 理 的 业务 过 程 。 

(2) 高 吞吐 量 、 低 延迟 。 即 使 在 非常 廉价 的 机 器 上 ,Kafka 也 能 做 到 每 秒 处 理 几 十 万 条 
消息 ,而 它 的 延迟 最 低 只 有 几 毫 秒 。 

(3) 持久 性 。Kafka 可 以 将 消息 直接 持久 化 在 普通 磁盘 上 . 且 磁 盘 读 写 性 能 优异 。 

(4) 扩展 性 。Kafka 集群 支持 热 扩 展 ,Kafka 集群 启动 运行 后 ,用 户 可 以 直接 向 集群 添 
加 新 的 Kafka 服务 。 

(5) 容错 性 。Kafka 会 将 数据 备份 到 多 台 服 务 器 节点 中 ,即使 Kafka 集群 中 的 某 一 台 
节点 宕 机 ,也 不 会 影响 整个 系统 的 功能 。 

(6) 支持 多 种 客户 端 语 言 。Kafka 支持 Java、. NET、PHP、Python 等 多 种 语言 。 

在 大 数据 计算 系统 的 开发 场景 中 , 若 需 要 对 接 外 部 数据 源 时 ,就 可 以 使 用 Kafka 系统 ， 


133 


134 


Spark 大 数据 分 析 与 实战 


如 读者 熟悉 的 日 志 收 集 系 统 和 消息 系统 ,Kafka 读 取 日 志 系统 中 的 数据 ,每 得 到 一 条 数据 ， 
就 可 以 及 时 地 处 理 一 条 数据 ,这 就 是 常见 的 流 式 计算 框架 。 在 流 式 计算 框架 中 ,Kafka 一 般 
用 来 缓存 数据 , 它 与 Apache 旗下 的 Spark Storm 等 计算 框架 有 着 非常 好 的 集成 ,这 些 计算 
框架 可 以 接收 Kafka 中 的 缓存 数据 并 进行 计算 ,实时 得 出 计算 结果 。 

Kafka 使 用 消费 组 (Consumer Group) 的 概念 统一 了 点 对 点 消息 传递 模式 和 发 布 订阅 
消息 传递 模式 , 当 Kafka 使 用 点 对 点 模式 时 , 它 可 以 将 待 处 理 的 工作 任务 平均 分 配给 消费 组 
中 的 消费 者 成 员 ; 当 使 用 发 布 订阅 模式 时 , 它 可 以 将 消息 广播 给 多 个 消费 组 。Kafka 采用 多 
个 消费 组 结合 多 个 消费 者 , 既 可 以 扩展 消息 处 理 的 能 力 , 也 允许 消息 被 多 个 消费 组 订阅 。 


6.2 Kafka 工作 原理 


6.2.1 Kafka 核心 组 件 介绍 


在 深入 学 习 Kafka 之 前 ,有 必要 先 了 解 Kafka 系统 的 核心 组 件 , 图 6-3 展示 了 Kafka 的 
组 件 结构 及 各 组 件 之 间 的 关系 。 


Topic kafka Broker 
Serverl 
Partition 1 Consumer Group 
加 0 1 二 pL | [Replicap2 
Leader Follower 
Consumer 1 
| Server? 
Partition 2 
Fe - 
write LN | | rae Consumer 2 
dat: Leader Follower 
Lo 
Server3 
四 Partition 3 Consumer 3 
0 +[ p3 Replica p3 
Leader Follower 


图 6-3 ”Kafka 组 件 结构 


在 图 6-3 中 ,Kafka 系统 中 包含 许多 组 件 , 下 面 通过 表 6-1 对 Kafka 组 件 及 其 相关 术语 
进行 概括 说 明 。 
表 6-1 Kafka 重要 组 件 


组 件 名 称 相关 说 明 
Topic( 主 题 ) 特定 类 别 的 消息 流 称 为 主题 ,数据 存储 在 主题 中 ,主题 被 拆 分 成 分 区 
Partition( 分 区 ) 主题 的 数据 分 割 为 一 个 或 多 个 分 区 ,每 个 分 区 的 数据 使 用 多 个 segment 文件 存储 ， 
分 区 中 的 数据 是 有 序 的 


Offset( 偏 移 量 ) 每 个 分 区 消息 具有 的 唯一 序列 标识 


Replica( 副 本 ) 副本 只 是 一 个 分 区 的 备份 ,它们 用 于 防止 数据 丢失 


Producer( 生 产 者 ) | 生产 者 即 数 据 的 发 布 者 ,该 角色 将 消息 发 布 到 Kafka 集群 的 主题 中 


Consumer( 消 费 者 ) | 消费 者 可 以 从 Broker 中 读 取 数 据 , 消 费 者 可 以 消费 多 个 主题 数据 
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续 表 


组 件 名 称 相关 说 明 


Kafka 集群 包含 一 个 或 多 个 服务 器 ,每 个 Kafka 服务 节点 成 为 Broker, Broker 接收 


Broker( 消 息 代 理 ) 到 消息 后 ,将 消息 追加 到 segment 文件 中 


Leader( 领 导 者 ) 负责 分 区 的 所 有 读 写 操作 ,每 个 分 区 都 有 一 个 服务 器 充当 Leader 


Follower( 追 随 者 ) 跟随 领导 指令 信息 ,如 果 Leader 发 生 故障 , 则 选举 出 一 个 Follower 作为 新 


的 Leader 
Consumer Group ”| 实现 一 个 主题 消息 的 广播 和 单 播 的 手段 ,如 果 需 要 实现 广播 ,只 需要 每 个 消费 者 拥 
(消费 组 ) 有 一 个 独立 的 消费 组 即 可 ,要 实现 单 播 只 需要 所 有 的 消费 者 在 同一 个 消费 组 即 可 


Kafka 集群 是 由 生产 者 (Producer)、 消 息 代理 服务 器 (Broker Server)、 消 费 者 
(Consumer) 组 成 的 。 发 布 到 Kafka 集群 的 每 条 消息 都 有 一 个 主题 CTopic) ,可 以 简单 地 将 
主题 当 作 是 数据 库 的 数据 表 名 。 不 同 种 类 的 数据 可 以 设置 成 不 同 的 主题 ,而 一 个 主题 会 有 
多 个 消息 的 订阅 者 , 当 生产 者 发 布 消 息 到 某 个 主题 时 ,订阅 这 个 主题 的 消费 者 都 可 以 接收 到 
消息 。 这 就 好 比 新 闻 联 播 中 有 多 种 新 闻 信息 ,每 晚 19 点 ,全国 的 观众 (订阅 者 ) 都 可 以 观看 
新 闻 。 

在 物理 意义 上 可 以 把 主题 看 作 是 分 区 的 日 志文 件 ,每 个 分 区 都 是 有 序 的 ,不 可 变 的 记录 
序列 ,新 的 消息 会 不 断 地 追加 到 日 志 中 ,分 区 中 的 每 条 消息 都 会 按照 时 间 顺 序 分 配 一 个 递增 
的 顺序 编号 , 即 图 6-1 中 Partition 1 的 0、1 两 个 偏 移 因 子 ,通常 被 称 为 偏 移 量 (Offset) ,这 个 
偏 移 量 能 够 定位 当前 分 区 中 的 每 一 条 消息 。Partition 2 中 有 4 个 偏 移 量 ,Partition 3 则 有 1 
个 偏 移 量 。 

分 区 日 志 以 分 布 式 的 方式 存储 在 Kafka 集群 上 ,为 了 故障 容错 ,每 个 分 区 都 会 以 副本 的 
方式 复制 到 其 他 Broker 节点 上 ,如 果 一 个 主题 的 副本 数 是 1, 那 么 Kafka 在 集群 中 为 每 个 
分 区 创建 1 个 副本 ,通过 在 Zookeeper 集群 上 创建 临时 节点 来 实现 选举 (这 是 利用 了 
Zookeeper 强 一 致 性 的 特性 ,一 个 节点 只 能 被 一 个 客户 端 创建 成 功 ) ,其 中 一 个 分 区 会 作为 
Leader( 如 图 中 的 pl 或 p2 或 p3) ,其 他 副本 分 区 作为 Follower。Leader 负责 所 有 客户 端的 
读 写 操作 ,Follower 负责 从 它 的 Leader 中 同步 数据 , 当 Leader 发 生 故 障 时 ,Follower 就 会 
从 该 副本 分 区 的 Follower 角色 中 选取 新 的 Leader。 因 为 每 个 分 区 的 副本 中 只 有 Leader 分 
区 接收 读 写 ,所 以 每 个 服务 端 中 都 会 有 Leader 分 区 ,以 及 另外 一 些 分 区 的 Follower 副本 ， 
这 样 Kafka 集群 的 所 有 服务 端 整体 上 对 客户 端 是 负载 均衡 的 。 

Kafka 的 消费 者 通过 订阅 主题 来 消费 消息 ,并 且 每 个 消费 者 都 会 设置 一 个 消费 组 名 称 
(Consumer Group) 。 由 于 生产 者 发 布 到 主题 的 每 一 条 消息 只 会 发 送 给 一 个 消费 者 ,因此 要 
实现 传统 消息 系统 的 点 对 点 模式 ,可 以 让 每 个 消费 者 都 拥有 一 个 相同 的 消费 组 ,这 样 消息 就 
会 负载 均衡 到 所 有 的 消费 者 了 ;而 实现 发 布 订阅 模式 的 话 , 则 每 个 消费 者 的 消费 组 名 称 都 不 
相同 ,这 样 每 条 消息 就 会 广播 给 所 有 的 消费 者 了 。 同 一 个 消费 组 下 有 多 个 消费 者 互相 协调 
进行 消费 工作 ,Kafka 会 将 所 有 的 分 区 平均 分 配给 所 有 的 消费 者 实例 对 象 ,这 样 每 个 消费 者 
都 可 以 分 配 到 平均 数量 的 分 区 。Kafka 的 消费 组 管理 协议 会 动态 地 维护 消费 组 成 员 列表 ， 
当 一 个 消费 者 新 加 入 或 离开 消费 组 时 ,都 会 触发 平衡 操作 。 
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6.2.2 Kafka 工作 流程 分 析 
Kafka 的 结构 含有 众多 组 件 ,每 个 组 件 相互 协调 工作 ,其 工作 流程 主要 分 为 生产 者 生产 


消息 过 程 和 消费 者 消费 消息 过 程 。 
1. 生产 者 生产 消息 过 程 
生产 者 向 Kafka 集群 中 生产 消息 ,可 以 通过 图 6-4 进行 概括 。 


Kafka Cluster 


Zookeeper 
1 Leader Follower 
2 下 一 | 4 一 =| 
Producer 6 Log | -5 一 | Log 


图 6-4 Producer 生产 消息 的 过 程 


从 图 6-4 可 以 看 出 ,Producer 生产 消息 的 过 程 可 以 简单 分 为 6 步 ,具体 如 下 。 
(1) Producer 先 读 取 Zookeeper 的 “/brokers/.../state” 节 点 ,并 从 中 找到 该 Partition 


的 Leader。 

(2) Producer 将 消息 发 送 给 Leader。 

(3) Leader 负责 将 消息 写 和 本 地 分 区 Log 文件 中 。 

(4) Follower 从 Leader 中 读 取 消息 ,完成 备份 操作 。 

(5) Follower 写 人 本 地 Log 文件 后 ,Follower 向 Leader 发 送 Ack,Kafka 的 Ack 机 制 : 
每 次 发 送 消 息 都 会 有 一 个 确认 反馈 机 制 , 以 确保 消息 正常 送 达 。 

(6) Leader 收 到 所 有 Follower 发 送 的 Ack 后 ,向 Producer 发 送 Ack, 生 产 消 息 完成 。 

Producer 是 消息 的 生产 者 ,通常 情况 下 ,数据 消息 源 可 以 是 服务 器 日 志 、 业 务 数据 以 及 
Web 服务 数据 等 ,生产 者 采用 推送 的 方式 将 数据 消息 发 布 到 Kafka 的 主题 中 ,主题 本 质 就 
是 一 个 目录 ,而 主题 是 由 Partition Logs( 分 区 日 志 ) 组 成 ,每 条 消息 都 被 追加 到 分 区 中 ,其 组 


织 结构 如 图 6-5 所 示 。 


Anatomy of a Topic 


Bon 1! | 
轩 1 

时] 

Par ,| 
呈 

2 EE 


Old 一 New 
图 6-5 主题 组 织 结构 


在 图 6-5 中 ,主题 结构 有 3 个 分 区 ,每 个 分 区 的 偏 移 量 都 是 从 0 开始 的 ,不 同 分 区 之 间 


的 偏 移 量 都 是 独立 的 ,不 会 相互 影响 ,生产 的 消息 会 不 断 地 追加 到 分 区 日 志 中 ,其 中 每 一 
消息 都 被 赋予 了 一 个 唯一 的 Offset 值 发布 到 主题 的 每 条 消息 都 包括 键 值 和 时 间 戳 ,原始 
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的 消息 内 容 和 分 配 的 偏 移 量 以 及 其 他 一 些 元 数据 信息 最 后 都 会 存储 到 分 区 日 志文 件 中 , 消 
息 的 键 也 可 以 不 用 设置 ,这 种 情况 下 消息 会 均衡 地 分 布 到 不 同 的 分 区 。 

最 终 主题 的 数据 保存 在 Broker 中 ,一 个 主题 可 以 有 多 个 分 区 ,在 物理 节点 上 ,每 个 分 区 
对 应 一 个 文件 夹 ,该 文件 夹 中 存储 的 是 当前 分 区 的 所 有 消息 和 索引 文件 。Kafka 针对 每 个 
分 区 数据 可 以 进行 备份 操作 (在 server. properties 配置 文件 中 设置 default. replication. 
factor) , 若 没有 分 区 备份 ,一 旦 Broker 发 生 故 障 , 其 所 有 的 分 区 数据 都 不 会 被 消费 。 
上 L 多 学 一 招 ; Kafka 分 区 策略 

Kafka 默认 的 分 区 策略 有 3 点 ,其 一 是 如 果 在 发 消息 的 时 候 指 定 了 分 区 , 则 消息 发 送 到 
指定 的 分 区 中 ;其 二 是 如 果 没 有 指定 分 区 ,但 消息 的 Key 不 为 空 , 则 基于 Key 的 哈 希 值 来 选 
择 一 个 分 区 ;其 三 是 如 果 既 没有 指定 分 区 , 且 消息 的 Key 值 为 空 , 则 用 轮 询 的 方式 选择 一 个 
分 区 。 分 区 不 仅 可 以 方便 地 在 集群 中 扩展 ,还 可 以 提高 并 发 读 取消 息 的 能 力 。 


2. 消费 者 消费 消息 过 程 


消息 由 生产 者 发 布 到 Kafka 集群 后 ,会 被 消费 者 消费 ,消息 的 消费 模型 有 两 种 : 推送 模 
型 (Push) 和 拉 取 模型 (Pull) 。 

基于 推送 模型 的 消息 系统 ,是 由 消息 代理 记录 消费 者 的 消费 状态 ,消息 代理 将 消息 数据 
推送 给 消费 者 后 ,就 标记 这 条 消息 被 消费 了 ,如 果 此 时 消费 者 由 于 网 络 拌 动 或 者 宕 机 等 原因 
造成 消息 数据 丢失 ,这 对 于 数据 准确 性 要 求 高 的 业务 来 说 ,后 果 是 非常 严重 的 。 消 息 发 送 速 
率 是 由 Broker 决定 的 ,其 目标 是 尽 可 能 以 最 快 的 速度 传递 消息 ,但 这 样 很 容易 造成 网 络 
阻塞 。 

Kafka 采用 拉 取 模型 ,由 消费 者 记录 消费 状态 ,根据 主题 ,Zookeeper 集群 地 址 和 要 消费 
消息 的 偏 移 量 ,每 个 消费 者 互相 独立 地 按 顺序 读 取 每 个 分 区 的 消息 ,消费 者 消费 消息 的 流程 
如 图 6-6 所 示 。 Producers 

在 图 6-6 中 ,Consumer A 、Consumer B 两 个 消 writes 
费 者 读 取 的 是 同一 个 主题 的 消息 ,当前 状态 下 , 消 
费 者 A 读 取 到 数据 偏 移 量 是 9, 消费 者 B 读 取 到 数 
据 偏 移 量 是 11 ,生产 者 正在 向 偏 移 量 为 12 的 地 址 
写 人 数据 ,最 新 写 人 的 数据 如 果 还 没有 达到 备份 数 ConsumerA ConsumerB 
量 时 , 偏 移 量 为 12 的 数据 是 对 消费 者 不 可 见 的 。 人 
采用 由 消费 者 控制 偏 移 量 的 方式 ,可 以 使 消费 者 按 图 6-6 消费 者 消费 消息 的 流程 
照 任意 的 顺序 消费 信息 ,消费 者 可 以 重 置 回 之 前 设 
置 的 偏 移 量 ,重新 处 理 之 前 已 经 消费 的 消息 ,或 者 直接 选择 最 近 的 消费 位 置 开 始 消费 。 

在 某 些 消 息 系 统 中 ,消息 代理 会 在 消息 被 消费 之 后 立即 将 其 删除 。 如 果 有 不 同类 型 的 
消费 者 订阅 同一 个 主题 ,消息 代理 可 能 需要 宛 余地 存储 同一 消息 ,或 者 等 所 有 消费 者 都 消费 
完 才 删除 ,这 就 需要 消息 代理 跟踪 每 个 消费 者 的 消费 状态 ,这 种 设计 很 大 程度 上 限制 了 消息 
系统 的 整体 吞吐 量 和 处 理 延 迟 。Kafka 的 设计 方法 使 生产 者 发 布 的 所 有 消息 都 保存 在 
Kafka 集群 中 ,不 管 消 息 有 没有 被 消费 。 用 户 可 以 通过 设置 保留 时 间 清 理 过 期 的 数据 。 例 
如 ,保留 策略 设置 为 两 天 ,那么 ,在 消息 发 布 之 后 , 它 可 以 被 不 同 的 消费 者 消费 ,在 两 天 之 后 ， 
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这 条 消息 就 会 过 期 ,过 期 的 消息 就 会 被 自动 清理 掉 。 

Kafka 采用 拉 取 模型 的 消费 方式 ,可 简化 消息 代理 的 设计 ,消费 者 可 自主 控制 消费 消息 
的 速率 以 及 消费 方式 (批量 消费 .逐条 消费 ) ,同时 还 能 选择 不 同 的 提交 方式 从 而 实现 不 同 的 
传输 语义 。 

小 提示 : 

拉 取 模型 也 有 缺点 ,如 果 Kafka 集群 中 没有 数据 ,消费 者 可 能 会 陷入 循环 中 ,一 直 等 待 
消息 到 达 , 为 了 避免 这 种 情况 ,可 以 在 consumer. properties 设置 参数 ,允许 消费 者 请 求 在 等 
待 数 据 到 达 的 “长 轮 询 ”中 进行 阻塞 (并 且 可 选择 等 待 到 达 给 定 的 字 节 数 , 以 确保 传输 数据 的 
大 小 ) 。 


6.3 Kafka 集群 部 署 与 测试 


在 学 习 了 Kafka 理论 知识 后 , 接 下 来 将 在 虚拟 机 中 搭建 Kafka 集群 ,Kafka 集群 部 署 难 
度 不 大 ,但 读者 需要 细心 地 填写 相关 配置 文件 。 


6.3.1 安装 Kafka 


Kafka 集群 部 署 依赖 于 Java 环境 和 Zookeeper 服务 ,在 本 书 第 2 章 搭建 Spark HA 小 
节 中 已 经 完成 了 上 述 环境 和 Zookeeper 集群 的 配置 。 下 面 通过 4 个 步骤 讲解 Kafka 集群 的 


1. 下 载 . 解 压 安装 包 


Kafka 集群 安装 很 简单 ,访问 Kafka 官方 网 站 http://kafka. apache. org/downloads. 
html 下 载 安 装 包 , 由 于 后 续 章 节 会 与 Spark 框架 整合 使 用 ,因此 在 选择 Kafka 的 版 本 时 要 
与 Scala 版 本 保持 一 致 , 本 书 选择 当前 最 新 稳定 版 本 kafka_2. 11-2. 0. 0. tgz。 

下 载 完 成 后 ,将 安装 包 上 传 至 hadoop01 节点 中 的 /export/software 目录 下 ,使 用 以 下 
命令 解压 安装 包 : 


Star -zxvf kafka 2.11-2.0.0.tgz /export/servers/ 


2. 修改 配置 文件 


进入 Kafka 文件 夹 下 的 config 目录 ,修改 server. properties 配置 文件 ,修改 后 的 内 容 如 
文件 6-1 所 示 。 
文件 6-1 server. properties 


#4broker 的 全 局 唯一 编号 ,不 能 重复 

broker.id=0 

# 用 来 监听 链接 的 端口 ,producer 或 consumer 将 在 此 端口 建立 连接 
Port= 9092 

# 处 理 网 络 请 求 的 线程 数量 


u mw N P 
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关于 文件 6-1 中 的 核心 参数 介绍 如 下 : 

(1) broker. id: 集群 中 每 个 节点 的 唯一 且 永 久 的 名 称 , 该 值 必须 大 于 或 等 于 0, 在 本 案 
例 中 ,主机 名 为 hadoop01、hadoop02、hadoop03 的 节点 中 ,该 参数 值 依次 设置 为 0.1、2。 

(2) log. dirs: 指定 运行 日 志 存 放 的 地 址 ,可 以 指定 多 个 目录 ,并 以 逗号 分 隔 。 

(3) zookeeper. connect: 指定 Zookeeper 集群 中 的 IP 与 端口 号 。 

(4) delete. topic. enable: 是 否 允 许 删除 Topic, 如 果 设 置 False, 表 示人 允许 删除 。 

(5) host. name: 设置 本 机 IP 地 址 。 若 设置 错误 , 则 客户 端 会 抛 出 Producer connection 
to localhost:9092 unsuccessful 的 异常 信息 。 
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3. 添加 环境 变量 
为 了 操作 方便 ,可 以 在 /etc/profile 文件 中 添加 Kafka 环境 变量 ,配置 参数 如 下 。 


export KAFKA HOME= /export/servers/kafka 2.11-2.0.0 
export PATH=$ PATH:$ KAFKA HOME/bin 


4. 分 发 文件 


修改 配置 文件 后 ,将 Kafka 本 地 安装 目录 /export/servers/kafka_2. 11 一 2.0.0 以 及 环 
境 变量 配置 文件 /etc/profile 分 发 至 hadoop02、hadoop03 机 器 ,命令 如 下 。 


$scp -r kafka 2.11-2.0.0/ hadoop02:/export/servers/ 
$scp -r kafka 2.11-2.0.0/ hadoop03:/export/servers/ 
$scp /etc/profile hadoop02:/etc/profile 
$scp /etc/profile hadoop03:/etc/profile 


分 发 完成 后 ,根据 当前 节点 的 情况 修改 broker. id 和 host. name 参数 ,随后 还 需要 使 用 
source /etc/profile 使 环境 变量 生效 。 至 此 ,Kafka 集群 配置 完毕 。 


6.3.2 启动 Kafka 服务 


Kafka 服务 启动 前 ,需要 先 启动 Zookeeper 集群 服务 。 在 3 台 节 点 上 依次 输入 
zkServer. sh start 启动 Zookeeper 服务 ,也 可 以 通过 一 键 启动 脚本 启动 Zookeeper 集群 服 
务 ,Zookeeper 服务 启动 后 的 效果 如 图 6-7 所 示 。 


hadoop02-192.168.121.135 | wy hadoop03-192.168.121.136 


Zookeeper ... STARTEI 
loop02 zk is running 
ZooKeeper JMX enabled by defau1t 
using config: /export/servers/zookeeper-3.4.10/bin/../conf/zo0. cfg 
PR Zookeeper ... STARTED 
hadoop03 zk is runni 
Proctghadoopoi scryptge 目 


ssh2: AES-256-CTR 14, 25 23 Rows, 102 Cols VT100 


6-7 一 键 启动 Zookeeper 服务 


Zookeeper 服务 启动 成 功 后 ,就 可 以 通过 Kafka 根 目录 下 bin/kafka 一 server 一 start. sh 
脚本 启动 Kafka 服务 了 ,命令 如 下 。 


$bin/kafka- server- start.sh config/server.properties 
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上 述 命 令 执 行 成 功 后 ,如 果 控 制 台 输出 的 消息 中 无 异常 信息 ,并 且 光 标 始 终 处 于 闪烁 状 
态 , 即 表示 Kafka 服务 启动 成 功 ,如 图 6-8 所 示 。 


:1 


hadoop02-192.168.121.135 | sp hadoop03-192.168.121136 
0 (ka c 


uster. RepTica = 
9,594] INFO Seplica loaded for partition _ consumer_offsets-3 with initial high wat 
ster. Replica. 
:29,598] ENFG Replica loaded for partition consumer_offsets-13 with initial high wa 
cluster. Replica) 
9, 599] INFO [ReplicaFetcherManager on broker 0] Removed fetcher for partitions kafk 
atopic-1 (k: ver Replicaretehernm lanager ) 1 
9,649] INFO licaFetchermanager on broker 0] Added fetcher for partitions List([ 


世人 3 19; 关 : [rep a 
afkatopic-1, initoftset 19 to broker Brokerendpoint(1,hadoop02,9092)] ) (kafka.server.RepTicaFetcherM| 


er 
[20: :34:29,649] INFO [ReplicaFetcher replicard-0, leaderId-1, fetcherId=0] starting (kafka.s 
erver. Replic: rThread) 

‘ogirsnanager on broker 0] Added fercher for parririons 1 


er 
eteherManager on broker 0] Removed fetcher for partitions firs 


afkatopic-1, dir=/export/data/kafka] Truncating to 19 
re 109'7093 a | 


图 6-8 启动 Kafka 服务 


需要 注意 的 是 ,当前 终端 不 能 被 关闭 ,因为 一 旦 关闭 ,Kafka 服务 就 会 停止 。 因 此 ,可 以 
使 用 克隆 会 话 功能 打开 一 个 新 的 终端 ,并 使 用 jps 命令 查看 Kafka 进程 是 否 正常 ,如 图 6-9 
所 示 。 


nter host <Alt+R> 


WV hadoop01-192.168.121.134 | wp hadoop01-192.168.121134 Q) x |@ hadoop02-192.168.121.135 | @ hadoop03-192168.121.136 


Last TogTn: hu Nov 5 20 
[roorehadoop0Ol ~]# jps 


4758 Kafka 

4392 QuorumpeerMain 
5098 ]ps 
[rootehadoopOl ~]# 国 


图 6-9 Kafka 服务 进程 


从 图 6-9 可 以 看 出 ,4758 为 当前 Kafka 的 服务 端 进程 。 


6.4 Kafka 生产 者 和 消费 者 实例 


6.4.1 基于 命令 行 方式 使 用 Kafka 


命令 行 操作 是 使 用 Kafka 最 基本 的 方式 ,也 便于 初学 者 入 门 使 用 。 要 想 使 生产 者 和 消 
费 者 互相 通信 ,就 必须 先 创建 一 个 “公共 频道 ”, 它 就 是 主题 ,在 Kafka 解压 包 的 bin 目录 下 ， 
有 一 个 kafka-topics. sh 文件 ,通过 该 文件 就 可 以 操作 与 主题 组 件 相 关 的 功能 ,由 于 前 面 配 
置 了 环境 变量 ,所 以 可 以 在 任何 目录 下 访问 bin 目录 下 的 所 有 文件 。 


han 
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下 面 首先 创建 一 个 名 为 itcasttopic 的 主题 ,命令 如 下 所 示 。 


Skafka-topics.sh --create \ 

--topic itcasttopic \ 

--partitions 3 \ 

--replication-factor 2\ 

—-zookeeper hadoop01:2181, hadoop02:2181,hadoop03:2181 


上 述 命令 创建 了 一 个 名 为 itcasttopic 的 主题 ,该 主题 的 分 区 数 为 3, 副 本数 为 2。 关 于 


上 述 命令 参数 的 相关 说 明 具 体 如 下 。 


(1) 一 create: 创建 一 个 主题 。 

(2) 一 topic: 定义 主题 名 称 。 

(3) 一 partitions: 定义 分 区 数 。 

(4) 一 replication-factor: 定义 副本 数 。 

(5) 一 zookeeper: 指定 Zookeeper 服务 IP 地 址 与 端口 号 。 

主题 创建 成 功 后 ,就 可 以 创建 生产 者 生产 消息 ,用 来 模拟 生产 环境 中 源源 不 断 的 消息 ， 


bin 目录 中 的 kafka-console-producer. sh 文件 ,可 以 使 用 生产 者 组 件 相 关 的 功能 ,如 向 主题 
中 发 送 消息 数据 的 功能 ,命令 如 下 所 示 。 


$kafka- console-producer.sh \ 
--broker-1ist hadoop01:9092,hadoop02:9092,hadoop03:9092 \ 
--topic itcasttopic 


上 述 命 令 创 建 了 一 个 生产 者 ,指定 主题 名 称 为 itcasttopic ,设置 Kafka 集群 IP 地 址 与 端 


口号 ,执行 完成 后 ,效果 如 图 6-10 所 示 。 


I oTe- 
ad9op0 3693 hadpop0258033 ,hadoopo3:9092 \ 


roker 4s 
ei itcasttopic 
> 


图 6-10 模拟 生产 者 生产 消息 


从 图 6-10 中 可 以 看 出 ,执行 命令 后 并 无 信息 输出 ,并 且 光 标 一 直 保 持 在 等 待 输入 的 状 


态 , 此 时 切换 hadoop02 终端 ,创建 消费 者 消费 消息 ,bin 目录 kafka-console-consumer. sh 文 
件 ,可 以 使 用 消费 者 组 件 相 关 的 功能 ,如 消费 主题 中 的 消息 数据 的 功能 ,命令 如 下 所 示 。 


$kafka- console- consumer .sh \ 
--from-beginning --topic itcasttopic \ 
--bootstrap- server hadoop01:9092,hadoop02:9092,hadoop03:9092 


上 述 命令 中 ,参数 -from-beginning 表示 要 读 取 itcasttopic 主题 中 的 全 部 内 容 , 可 以 根 
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据 业 务 需 求 判断 是 否 需 要 添加 该 参数 。 
上 述 命令 执行 完毕 后 ,依然 没有 任何 消息 输出 ,这 是 因为 hadoop01 节点 的 生产 者 没有 
生产 消息 ,此 时 返回 hadoop01 终端 ,输入 任意 数据 , 按 Enter 键 发 送 , 效 果 如 图 6-11 所 示 。 


keel hadoopo1: 2181,hadoop02:2181,hadoop03:2181 
reated topic “itcasttopic®, 
rooftt 


1 ~ 

的 ~ HW kafka- ns ole progucers sh \ 

> ~-broker ist, hadeopo1 :9092,hadoop02:9092, hadoop03:9092 \ 
> --topic itcasttopic 


>>hello kafka 
> 


ssh2: AES-256-CTR = 10, 2 11Rows,105Cols VT100 | 


图 6-11 输入 生产 者 消息 


在 图 6-11 中 ,向 终端 输入 了 hello kafka 的 消息 内 容 , 这 些 单词 就 是 数据 源 ,返回 
hadoop02 消费 者 终端 查看 消息 ,如 图 6-12 所 示 。 


oot =: 
> --from-| inn -tT pic tasttop' 
> 9 Pagocpol Po: :9092 ,hadoop03:9092 


hello kafka 
a 


ssh2: AES-256-CTR 7, 1 11 Rows, 105 Cols VT100 | 


图 6-12 消费 者 消费 消息 


从 图 6-12 可 以 看 出 ,此 时 消费 者 终端 立即 接收 到 了 消息 数据 。 
Kafka 常用 命令 行 操作 中 还 可 以 使 用 -list 参数 查看 所 有 的 主题 ,具体 指令 如 下 。 


$kafka-topics.sh --1istN\ 
--zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 


当 想 要 删除 当前 主题 时 ,只 需要 输入 以 下 命令 。 


$kafka- topics.sh --delete \ 


--zookeeper hadoop01:2181, hadoop02:2181, hadoop03:2181 \ 
--topic itcasttopic 


6.4.2 基于 Java API 方式 使 用 Kafka 
用 户 不 仅 能 够 通过 命令 行 的 形式 操作 Kafka 服务 ,Kafka 还 提供 了 许多 编程 语言 的 客 
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户 端 工 具 , 用 户 在 开发 独立 项 目 时 ,通过 调用 Kafka API 来 操作 Kafka 集群 ,其 核心 API 主 
要 有 以 下 5 种 。 

(1) Producer API: 构建 应 用 程序 发 送 数据 流 到 Kafka 集群 中 的 主题 。 

(2) Consumer API: 构建 应 用 程序 从 Kafka 集群 中 的 主题 读 取 数 据 流 。 

(3) Streams API: 构建 流 处 理 程序 的 库 , 能 够 处 理 流 式 数据 。 

(4) Connect API: 实现 连接 器 ,用 于 在 Kafka 和 其 他 系统 之 间 可 扩展 的 .可靠 的 流 式 
传输 数据 的 工具 。 

(5) AdminClient API: 构建 集群 管理 工具 ,查看 Kafka 集群 组 件 信息 。 

Kafka 作为 流 数据 处 理 平台 ,本 身 功能 强大 ,技术 难度 较 高 .有 兴趣 的 读者 可 以 通过 官 
网 深入 学 习 。 本 章 将 介绍 常用 Producer API 以 及 Consumer API 来 辅助 学 习 Spark 实时 计 
算 框架 。 

在 开发 生产 者 客户 端 时 ,Producer API 提供 了 KafkaProducer 类 ,该 类 的 实例 化 对 象 用 
来 代表 一 个 生产 者 进程 ,生产 者 发 送 消息 时 ,并 不 是 直接 发 送 给 服务 端 , 而 是 先 在 客户 端 中 
把 消息 存 人 队列 中 ,然后 由 一 个 发 送 线程 从 队列 中 消费 消息 ,并 以 批量 的 方式 发 送 消息 给 服 
务 端 ,关于 KafkaProducer 类 常用 的 方法 如 表 6-2 所 示 。 


表 6-2 KafkaProducer 常用 API 


方法 名 称 相关 说 明 
abortTransaction() 终止 正在 进行 的 事物 
close() 关闭 这 个 生产 者 
flush() 调用 此 方法 会 使 所 有 缓冲 的 记录 立即 发 送 
partitionsFor(java. lang. String topic) 获取 给 定 主 题 的 分 区 元 数据 
send(ProducerRecord<K,V> record) 异步 发 送 记录 到 主题 


生产 者 客户 端 用 来 向 Kafka 集群 中 发 送 消息 ,消费 者 客户 端 则 是 从 Kafka 集群 中 消费 
消息 。 作 为 分 布 式 消息 系统 ,Kafka 支持 多 个 生产 者 和 多 个 消费 者 ,生产 者 可 以 将 消息 发 布 
到 集群 中 不 同 节点 的 不 同 分 区 上 ,消费 者 也 可 以 消费 集群 中 多 个 节点 的 多 个 分 区 上 的 消息 ， 
消费 者 应 用 程序 是 由 KafkaConsumer 对 象 代表 的 一 个 消费 者 客户 端 进 程 ,KafkaConsumer 
类 常用 的 方法 如 表 6-3 所 示 。 


表 6-3 KafkaConsumer 常用 API 


方法 名 称 相关 说 明 


subscribe 
(java. util. Collection< java. lang. String> 订阅 给 定 的 主题 列表 以 获取 动态 分 区 
topics) 


close() 关闭 这 个 消费 者 
wakeup() 唤醒 消费 者 
metrics() 获取 消费 者 保留 的 指标 


listTopics() 获取 有 关 用 户 有 权 查 看 的 所 有 主题 的 分 区 的 元 数据 
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接 下 来 ,以 实例 演示 的 方式 ,分 步骤 介绍 Kafka 的 Java API 操作 方式 。 
1. 创建 工程 ,添加 依赖 


创建 一 个 名 为 spark_chapter06 的 Maven 工程 ,在 pom. xml 文件 中 添加 Kafka 依赖 ， 
需要 注意 的 是 , Kafka 依赖 需要 与 虚拟 机 安装 的 Kafka 版 本 保持 一 致 ,配置 参数 如 下 
所 示 。 


添加 完毕 后 ,IDEA 工具 会 自动 下 载 相关 Jar 包 。 
2. 编写 生产 者 客户 端 


打开 spark_chapter06 工程 下 的 Java 目录 ,创建 KafkaProducerTest 文件 用 来 实现 生 


产 消息 数据 并 将 数据 发 送 到 Kafka 集群 ,如 文件 6-2 所 示 。 
文件 6-2 KafkaProducerTest. java 
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23 // 8. 设置 value 序列 化 

24 props.put ("value.serializer", 

25 "org.apache.kafka.common.-serialization.StringSerializer")7 
26 // 9. 生产 数据 

29 KafkaProducer< String，String>producer = 

28 new KafkapProducer<Sstring, String> (props); 
29 for (int i =0; i <50; i++) { 

30 producer .send (new ProducerRecord<string, string> 

31 ("itcasttopic", Integer.tostring (i), "hello world-" +i)); 
32 } 

33 producer.close(); 

34 } 

35° 


上 述 代 码 中 ,第 6 一 25 行 代码 设置 了 Kafka 集群 的 IP 地 址 、 端 口号 以 及 其 他 的 相关 配 
置 参数 ,具体 参数 功能 如 下 。 

(1) bootstrap. servers: 设置 Kafka 集群 的 IP 地 址 和 端口 号 。 

(2) acks: 消息 确认 机 制 , 该 值 设置 为 all, 这 种 策略 会 保证 只 要 有 一 个 备份 存活 就 不 会 
丢失 数据 ,这 种 方案 是 最 安全 可 靠 的 ,但 同时 效率 也 会 降低 。 

(3) retries: 如 果 当 前 请 求 失败 , 则 生产 者 可 以 自动 重新 连接 ,但 是 设置 retries 一 0 参 
数 , 则 意味 请 求 失败 不 会 重复 连接 ,这 样 可 以 避免 消息 重复 发 送 的 可 能 。 

(4) batch. size: 生产 者 为 每 个 分 区 维护 了 未 发 送 数据 的 内 存 缓冲 区 ,该 缓冲 区 设置 的 
越 大 ,吞吐 量 和 效率 就 越 高 ,但 也 会 浪费 更 多 的 内 存 。 

(5) linger. ms: 指定 请 求 延 时 ,意味 着 如 果 在 缓冲 区 没有 被 填 满 的 情况 下 ,会 增加 lms 
的 延迟 ,等 待 更 多 的 数据 进入 缓冲 区 从 而 增加 内 存 利 用 率 。 在 默认 情况 下 ,即使 缓冲 区 中 有 
其 他 未 使 用 的 空间 ,也 可 以 立即 发 送 缓冲 区 。 

(6) buffer. memory: 指定 缓冲 区 大 小 。 

(7) key. serializer value. serializer: 数据 在 网 络 中 传输 需要 进行 序列 化 。 

第 27 一 32 行 代码 ,作用 是 模拟 消息 源 ,向 名 为 itcasttopic 的 主题 中 发 送 消息 数据 。 向 
Kafka 集群 发 送 消息 数据 时 ,只 需要 调用 KafkaProducer 类 的 send() 方 法 ,该 方法 是 异步 
的 ,调用 时 , 它 会 将 消息 数据 添加 到 待 处 理 消息 数据 发 送 的 缓冲 区 中 ,最 终 以 批 处 理 的 方式 
处 理 消息 数据 ,从 而 提高 效率 。send() 方 法 中 有 3 个 参数 ,第 1 个 参数 是 指定 发 送 主 题 ,第 
2 个 参数 是 设置 消息 的 Key, 第 3 个 参数 是 消息 的 Value。 

运行 文件 6-2 中 的 代码 ,返回 正在 监听 itcasttopic 主题 的 消费 者 终端 (hadoop02) ,控制 
台 将 会 输出 发 送 的 自 定义 数据 内 容 , 具 体 如 图 6-13 所 示 。 

从 图 6-13 可 以 看 出 ,生产 者 生产 的 消息 成 功 被 终端 消费 。 


3. 编写 消费 者 客户 端 


接 下 来 ,通过 Kafka API 创建 KafkaConsumer 对 象 . 用 来 消费 Kafka 集群 中 名 为 
itcasttopic 主题 的 消息 数据 。 在 工程 下 创建 KafkaConsumerTest. java 文件 ,代码 如 文件 6-3 
所 示 。 


第 6 章 Kafka 分 布 式 发 布 订阅 消息 系统 国 479 


图 6-13 消费 者 终端 


文件 6-3 KafkaConsumerTest. java 
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32 
33 
34 
3 
36 
了 
38 
E> 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 


Kafka 集群 的 消息 数据 需要 被 不 同类 型 的 消费 者 使 用 ,不 同 的 消费 者 处 理 逻 辑 不 同 , 上 
述 第 19 一 23 行 代码 ,通过 group. id 设置 消费 组 ,auto. commit. interval. ms 一 true 与 auto. 
commit, interval. m 二 1000 意味 着 每 秒 向 Zookeeper 中 写 和 人 每 个 分 区 的 偏 移 量 ; key. 
deserializer 和 value. deserializer 参数 是 将 消息 数据 进行 反 序列 化 。 第 33 一 47 行 代码 中 的 


// 7. 获 取消 息 
while (true) { 


// 每 隔 100ms 就 拉 取 一 次 


ConsumerRecords<string, string>records = 
kafkaConsumer .pol1 (100); 
for (ConsumerRecord<Sstring, string>record : records) { 


System.out .printf ("topic =%s, 


offset =$%d, 


key =%s, 


Value =%s%n", 


record.topic(), 


record.offset (), 


record.key(), 


record.value ()); 


ConsumerRecords 对 象 是 一 个 容器 ,用 于 保存 特定 主题 的 每 个 分 区 列表 。 


运行 文件 6-3 中 的 代码 , IDEA 控制 台 并 无 信 


KafkaProducerTest. java 文件 启动 生产 者 即 可 ,效果 如 图 6-14 所 示 。 


息 输出 ,此 时 只 需要 重新 运行 


二 | 全 topic = itcasttopic,offset = 24, key = 2, value = hello world-2 
加 | 上 topic = itcasttopic,offset = 25, key = 3, value = hello world-3 
W|I topic = itcasttopic,offset = 26, key = 9, value = hello world-9 
加 topic = itcasttopic,offset = 27, key = 16, value = hello world-16 

topic = itcasttopic,offset = 28, key = 29, value = hello world-29 
烛 | 写 topic = itcasttopic,offset = 29, key = 32, value = hello world-32 
国 | 会 topic = itcasttopic,offset = 30, key = 36, value = hello world-36 
内 topic = itcasttopic,offset = 31, key = 40, value = hello world-40 

topic = itcasttopic,offset = 32, key = 41, value = hello world-41 
S topic = itcasttopic,offset = 33, key = 49, value = hello world-49 

名 和 TODO 。 国 Terminal 

图 6-14 消费 者 消费 消息 


6.5 Kafka Streams 


Kafka 在 0. 10 版 本 版 本 之 前 , 仅 作为 消息 的 存储 系统 ,开发 者 如 果 要 对 Kafka 集群 中 的 数 
据 进 行 流 式 计算 ,需要 借助 第 三 方 的 流 计 算 框 架 实 现 ,在 0. 10 版 本 之 后 ,Kafka 内 置 了 一 个 流 
式 处 理 框架 的 客户 端 Kafka Streams, 开 发 者 可 以 直接 以 Kafka 为 核心 构建 流 式 计算 系统 。 
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6.5.1 Kafka Streams 概述 


Kafka Streams 是 Apache Kafka 开源 项 目的 一 个 流 处 理 框 架 , 它 是 基于 Kafka 的 生产 
者 和 消费 者 ,为 开发 者 提供 了 流 式 处 理 的 能 力 ,具有 低 延 迟 性 、 高 扩展 性 、 高 弹性 、 高 容错 性 
的 特点 ,易于 集成 到 现 有 的 应 用 程序 中 。 

Kafka Streams 是 一 套 处 理 分 析 Kafka 中 存储 数据 的 客户 端 类 库 , 处 理 完 的 数据 可 以 
重新 写 回 Kafka, 也 可 以 发 送 给 外 部 存储 系统 。 作 为 类 库 ,可 以 非常 方便 地 嵌入 到 应 用 程序 
中 ,直接 提供 具体 的 类 供 开发 者 调用 ,而 且 在 打包 和 部 署 的 过 程 中 基本 没有 任何 要 求 ,整个 
应 用 的 运行 方式 主要 由 开发 者 控制 ,方便 使 用 和 调试 。 

在 流 式 计算 框架 的 模型 中 ,通常 需要 构建 数据 流 的 拓扑 结构 ,如 生产 数据 源 、 分 析 数 据 
的 处 理 器 以 及 处 理 完 成 后 发 送 的 目标 节点 ,Kafka 流 处 理 框 架 同 样 是 将 “输入 主题 一 自 定 义 
处 理 器 一 输出 主题 "抽象 成 一 个 DAG 拓扑 图 ,如 图 6-15 所 示 。 


| Producer “六 一 一 testStreams] testStreams2—™] Consumer 


Processor 


图 6-15 计算 流程 拓扑 图 


在 图 6-15 中 ,生产 者 作为 数据 源 不 断 生 产 和 发 送 消息 至 Kafka 的 testStreamsl 主题 
中 ,然后 通过 自 定义 处 理 器 (Processor) 对 每 条 消息 根据 不 同 的 逻辑 执行 相应 的 计算 ,最 后 
将 结果 发 送 到 Kafka 的 testStreams2 主题 中 供 消 费 者 消费 消息 数据 。 

需要 注意 的 是 ,任务 的 执行 拓扑 图 是 一 张 有 向 无 环 图 (DAG)。 有 向 表示 从 一 个 处 理 节 
点 到 另 一 个 处 理 节点 是 具有 方向 性 的 ;无 环 表示 不 能 有 环 路 ,因为 一 旦 有 环 路 ,就 会 陷入 死 
循环 状态 ,任务 将 无 法 结束 。 


6.5.2 Kafka Streams 开发 单词 计数 应 用 
本 节 , 将 通过 实时 计算 单词 出 现 的 次 数 的 经 典 案例 ,分 步骤 讲解 开发 流程 。 
1. 添加 依赖 


在 spark_chapter06 项 目 中 ,打开 pom. xml 文件 ,添加 Kafka Streams 依赖 ,配置 参数 
如 下 所 示 。 


<dependency> 
<groupId>org.apache.kafka< /groupId> 
<artifactId>kafka- streams< /artifactId> 
<version>2.0.0</version> 

</dependency> 


添加 相关 依赖 时 ,要 注意 选择 匹配 当前 版 本 号 ,避免 不 兼容 问题 。 
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2. 编写 代码 


根据 上 述 业 务 流程 分 析 得 出 ,单词 数据 通过 自 定义 处 理 器 接收 并 执行 相应 业务 计算 , 因 
此 创建 LogProcessor 类 ,并 且 继 承 Streams API 中 的 Processor 接口 ,在 Processor 接口 中 ， 
定 父 下 以 下 3 不 方法 ， 

(1) init(ProcessorContext processorContext) : 初始 化 上 下 文 对 象 。 

(2) process(Key,Value) : 每 接收 到 一 条 消息 时 ,都 会 调用 该 方法 处 理 并 更 新 状态 进行 
存储 。 

(3) close() : 关闭 处 理 器 ,这 里 可 以 做 一 些 资源 清理 工作 。 

Kafka Streams 单词 计数 详细 代码 如 文件 6-4 所 示 。 

文件 6-4 LogProcessor. java 


在 上 述 代码 中 ,LogProcessor 类 实现 了 Processor 接口 ,Processor 接口 会 被 Kafka 流 处 
理 框架 在 运行 时 调用 ,在 第 10 一 28 行 代 码 中 , 重 写 父 类 中 的 process() 方 法 , 它 是 业务 计算 
的 核心 方法 ,一 切 计 算 处 理 都 要 在 这 里 实现 ,最 后 需要 调用 forward() 方 法 ,作用 是 将 消息 
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数据 转发 到 拓扑 的 下 游 处 理 节点 。 

单词 计数 的 业务 功能 开发 完成 后 ,Kafka Streams 需要 编写 一 个 运行 主 程序 的 类 App， 
来 测试 LogProcessor 业务 程序 ,具体 代码 如 文件 6-5 所 示 。 

文件 6-5 App.java 


上 述 代码 中 ,第 9 一 12 行 代码 声明 来 源 主题 和 目标 主题 ,第 13 一 21 行 代码 设置 Kafka 
流 处 理应 用 程序 的 配置 参数 信息 ,实例 化 StreamsConfig 对 象 、Topology 对 象 。 第 23 一 32 
行 核心 代码 中 ,应 用 程序 创建 拓扑 结构 器 后 ,分 别 调用 拓扑 结构 器 中 的 addSource()、 
addProcessor() ,addSink() 方 法 ,构建 出 任务 的 执行 拓扑 关系 。 其 中 addSource() 方 法 用 来 
添加 源 处 理 节点 ,需要 为 源 处 理 节点 指定 名 称 和 它 订 阅 的 Kafka 主题 。addProcessor() 方 
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法 用 来 添加 自 定义 处 理 节点 ,需要 指定 名 称 、 处 理 器 类 和 上 一 节点 的 名 称 。addSink() 方 法 
用 来 添加 目标 处 理 节 点 ,需要 指定 目标 处 理 节 点 和 上 一 节点 的 名 称 。 第 34 一 35 行 代码 , 实 
例 化 KafkaStreams 对 象 ,并 调用 start() 方 法 启动 程序 。 


3. 执行 测试 


代码 编写 完成 后 ,在 hadoop01 节点 创建 testStreamsl 和 testStreams2 主题 ,命令 如 下 
所 示 。 


成 功 创建 好 目标 主题 后 ,分 别 在 hadoop01 和 hadoop02 节点 启动 生产 者 服务 和 消费 者 
服务 。 启 动 生产 者 服务 的 命令 如 下 : 


启动 消费 者 服务 的 命令 如 下 : 


最 后 ,运行 App 主 程序 类 。 至 此 就 完成 了 Kafka Streams 所 需 的 测试 环境 。 
在 生产 者 服务 节点 (hadoop01) 中 输入 hello itcast hello spark hello kafka 语句 ,返回 消 
费 者 服务 节点 (hadoop02) 中 查看 执行 效果 如 图 6-16 所 示 。 


从 图 6-16 可 以 看 出 ,控制 台 输 出 {spark 二 1,itcast 二 1,kafka 一 1,hello 二 3) 信 息 ,说 明 
Kafka Streams 成 功 对 输入 的 语句 进行 了 单词 计数 。 

至 此 ,通过 单词 计数 这 个 简单 的 案例 讲解 了 Kafka Streams 的 低级 Processor API 的 使 
用 方式 , 它 还 提供 了 高 级 的 DSL API 方 式 , 感 兴趣 的 读者 可 在 Kafka 官方 网 站 或 社区 中 深 
人 学 习 Kafka 提供 的 流 处 理 框 架 , 即 Kafka Streams。 
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ssh2: AES-256-CTR 7, 1 13Rows,113Cols VT100 


图 6-16 消费 者 节点 输出 计算 结果 


6.6 本 章 小 结 


本 章 主 要 讲解 了 什么 是 Kafka, 如 何 部 署 Kafka 集群 以 及 Kafka 的 工作 原理 和 使 用 方 
法 。 通 过 本 章 的 学 习 , 读 者 能 够 掌握 Kafka 的 基本 概念 和 工作 流程 原理 ,独立 部 署 以 及 正确 
使 用 Kafka 集群 。 本 章 重 点 内 容 是 理解 Kafka 组 件 功能 ,并 独立 部 署 Kafka 集群 ,掌握 使 用 
Kafka 的 两 种 操作 方式 。Kafka 是 流 式 数据 处 理 平台 中 重要 的 工具 ,为 后 续 整 合 Spark 进 
行 流 式 计算 系统 开发 做 准备 。 


6.7 课 后 习题 

一 、 填 空 题 

1. Kafka 的 设计 初衷 是 为 实时 数据 提供 一 个 \ 高 通 量 、 的 消息 传递 
平台 。 

2. Kafka 的 消息 传递 模式 有 ` 发 布 订阅 消息 传递 模式 。 

3. Kafka 集群 是 由 ` 消 息 代理 服务 器 (Broker Server) 和 组 成 。 

4. 是 Apache Kafka 开源 项 目的 一 个 流 处 理 框 架 。 

5. Kafka 集群 中 消息 的 消费 模型 有 两 种 .分别 是 和 

二 、 判 断 题 


1. Kafka 是 由 Twitter 软件 基金 会 开发 的 一 个 开源 流 处 理 平台 。 € 
2. Kafka 是 专门 为 分 布 式 高 吞吐 量 系 统 而 设计 开发 的 。 《 和 
3. Consumer 是 数据 的 生产 者 ,Producer 是 数据 的 消费 者 。 ( ) 
4. Kafka Streams 是 一 套 处 理 分 析 Kafka 中 存储 数据 的 客户 端 类 库 ,处理 完 的 数据 不 
可 以 重新 写 回 Kafka, 但 可 以 发 送 给 外 部 存储 系统 。 C3 
5. 在 Kafka 中 , 若 想 建立 生产 者 和 消费 者 互相 通信 ,就 必须 提前 创建 一 个 “公共 频道 ”， 
它 就 是 主题 (Topic) 。 站 
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三 、 选 择 题 
1. 下 列 选 项 中 ,哪个 不 是 Kafka 的 优点 ? 〈 ) 
A. 解 耦 B. 高 吞吐 量 C. 高 延迟 D. 容错 性 
2. 下 列 选项 中 ,哪个 选项 是 每 个 分 区 消息 的 唯一 序列 标识 ? 〈 ) 
A. Topic B. Partition C. Broker D. Offset 
3. 下 列 选项 中 ,哪个 不 属于 消息 系统 ? ( ) 
A. Kafka B. RabbitMQ C. ActiveMQ D. Zookeeper 
四 、 简 答题 


1. 简 述 Kafka 消息 的 传递 模式 。 
2. 简 述 Kafka 的 工作 流程 。 


五 、 编 程 题 
通过 Kafka Streaming 编程 ,实现 词 频 统计 (单词 出 现 的 次 数 ) 的 功能 。 
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学 习 目 标 

。 了 解 什么 是 实时 计算 。 

。 理解 Spark Streaming 的 工作 原理 。 

。 掌握 DStream 的 转换 操作 方法 。 

。 掌握 DStream 的 窗口 操作 方法 。 

。 掌握 DStream 的 输出 操作 方法 。 

。 掌握 Spark Streaming 和 Kafka 整合 。 


近年 来 ,Web 应 用 、 网 络 监控 , 传 感 监测 .电信 金融 .生产 制造 等 领域 ,对 数据 实时 处 理 
的 需求 不 断 增强 ,而 Spark 中 的 Spark Streaming 实时 计算 框架 就 是 为 了 实现 对 数据 实时 处 
理 的 需求 而 设计 的 。 在 电子 商务 中 ,淘宝 .京东 等 网 站 从 用 户 点 击 的 行为 (如 加 入 购物 车 ) 和 
浏览 的 历史 记录 中 发 现 用 户 的 购买 意图 和 兴趣 ,然后 通过 Spark Streaming 实时 计算 框架 
分 析 处 理 ,为 之 推荐 相关 商品 ,从 而 有 效 地 提高 商品 的 销售 量 , 同 时 也 增加 了 用 户 的 满意 度 ， 
可 谓 是 “一 举 两 得 ”。 因 此 ,本章 详 细 介绍 Spark Streaming 实时 计算 框架 的 相关 知识 。 


7.1 实时 计算 的 基础 知识 


7.1.1 什么 是 实时 计算 


传统 的 数据 处 理 流程 (离线 计算 ) ,先是 收集 数据 ,然后 将 数据 存储 到 数据 库 中 。 当 需要 
某 些 数据 时 ,可 以 通过 对 数据 库 中 的 数据 做 操作 ,得 到 所 需要 的 数据 ,再 进行 其 他 相关 的 处 
理 。 这 样 的 处 理 流程 会 造成 结果 数据 密集 ,结果 数据 密集 则 数据 反馈 不 及 时 。 在 实时 搜索 
的 应 用 场景 中 ,需要 实时 数据 做 决策 ,而 传统 的 数据 处 理 并 不 能 很 好 地 解决 问题 ,这 就 引出 
了 一 种 新 的 数据 计算 一 一 实时 计算 , 它 可 以 针对 海量 数据 进行 实时 计算 ,无 论 是 在 数据 采集 
还 是 数据 处 理 中 ,都 可 以 达到 秒 级 别 的 处 理 要 求 。 

在 大 数据 技术 中 ,有 离线 计算 、 批 量 计算 、 实 时 计算 以 及 流 式 计算 ,其 中 ,离线 计算 和 实 
时 计算 指 的 是 数据 处 理 的 延迟 ;批量 计算 和 流 式 计算 指 的 是 数据 处 理 的 方式 。 


7.1.2 常用 的 实时 计算 框架 


目前 ,业内 已 经 衍生 出 许多 实时 计算 数据 的 框架 ,如 Apache Spark Streaming、Apache 
Storm、Apache Flink 以 及 Yahoo! S4。 
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1. Apache Spark Streaming 


Apache Spark Streaming 即 Apache 公司 免费 .开源 的 实时 计算 框架 。 它 主要 是 把 输入 
的 数据 按时 间 进 行 切 分 ,并 对 切 分 的 数据 块 进行 并 行 计 算 处 理 , 处 理 的 速度 可 以 达到 秒 级 
别 。Netflix 公司 通过 Kafka 和 Spark Streaming 构建 了 实时 引擎 ,对 每 天 从 各 种 数据 源 接 
收 到 的 数 十 亿 数据 进行 分 析 , 从 而 完成 电影 的 推荐 功能 。 


2. Apache Storm 


Apache Storm 即 Twitter 公司 免费 .开源 贡献 给 Apache 的 一 个 分 布 式 实 时 计算 系统 。 
它 可 以 简单 ,高效 .可 靠 地 实时 处 理 海 量 数据 ,处 理 数据 的 速度 达到 毫秒 级 别 ,并 可 将 处 理 后 
的 结果 数据 保存 到 持久 化 介质 中 (如 数据 库 .HDFS)。 阿 里 巴巴 公司 的 JStorm, 就 是 参考 
Apache Storm 开发 的 实时 计算 框架 ,可 以 说 是 Strom 的 增强 版 本 ,在 网 络 IO 线程 模型 资 
源 调度 .可 用 性 及 稳定 性 上 都 做 了 极 大 的 改进 , 供 很 多 企业 使 用 。 


3. Apache Flink 


Apache Flink 即 Apache 公司 开源 的 计算 框架 。 它 不 仅 可 以 支持 离线 处 理 , 还 可 以 支 
持 实 时 处 理 。 由 于 离线 处 理 和 实时 处 理 所 提供 的 SLA( 服 务 等 级 协议 ) 是 完全 不 相同 的 ,所 
以 离线 处 理 一 般 需 要 支持 低 延 迟 的 保证 ,而 实时 处 理 则 需要 支持 高 吞吐 ,高 效率 的 处 理 。 


4. Yahoo! S4(Simple Scalable Streaming System) 


Yahoo! S4 即 Yahoo 公司 开源 的 实时 计算 平台 。 它 是 通用 的 、 分 布 式 的 、 可 扩展 的 ,并 
且 还 具有 容错 和 可 插 拔 能 力 , 供 开发 者 轻松 地 处 理 源源 不 断 产生 的 数据 。 


7.2 Spark Streaming 的 基础 知识 


7.2.1 Spark Streaming 简介 


Spark Streaming 是 构建 在 Spark 上 的 实时 计算 框架 , 且 是 对 Spark Core API 的 一 个 扩 
展 , 它 能 够 实现 对 流 数据 进行 实时 处 理 , 并 具有 很 好 的 可 扩展 性 ,高 吞吐 量 和 容错 性 。Spark 
Streaming 具有 如 下 显著 特点 。 

(1) 易 用 性 。 

Spark Streaming 支持 Java、Python、Scala 等 编程 语言 ,可 以 像 编 写 离线 程序 一 样 编写 
实时 计算 的 程序 。 

(2) 容错 性 。 

Spark Streaming 在 没有 额外 代码 和 配置 的 情况 下 ,可 以 恢复 丢失 的 数据 。 对 于 实时 计 
算 来 说 ,容错 性 至 关 重 要 。 首 先 要 明确 一 下 Spark 中 RDD 的 容错 机 制 , 即 每 一 个 RDD 都 是 
一 个 不 可 变 的 分 布 式 可 重 算 的 数据 集 , 它 记录 着 确定 性 的 操作 继承 关系 (lineage) ,所 以 只 要 
输入 数据 是 可 容错 的 ,那么 任意 一 个 RDD 的 分 区 (Partition) 出 错 或 不 可 用 ,都 可 以 使 用 原 
始 输 入 数据 经 过 转换 操作 重新 计算 得 到 。 
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(3) 易 整 合 性 。 
Spark Streaming 可 以 在 Spark 上 运行 ,并 且 还 允许 重复 使 用 相同 的 代码 进行 批 处 理 。 
也 就 是 说 ,实时 处 理 可 以 与 离线 处 理 相 结 合 ,实现 交互 式 的 查询 操作 。 


7.2.2 Spark Streaming 工作 原理 


Spark Streaming 支持 从 多 种 数据 源 获 取 数 据 , 包 括 Kafka、Flume、Twitter、ZeroMQ、 
Kinesis 以 及 TCP Sockets 数据 源 。 当 Spark Streaming 从 数据 源 获 取 数 据 之 后 ,可 以 使 用 
如 map .reduce join 和 window 等 高 级 函数 进行 复杂 的 计算 处 理 , 最 后 将 处 理 的 结果 存储 到 
分 布 式 文件 系统 ,数据库 中 ,最 终 利用 实时 Web 仪表 板 进行 展示 。Spark Streaming 支持 的 
输入 .输出 源 如 图 7-1 所 示 。 


As) Spaoi 加 
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[Twitter | 


图 7-1 Spark Streaming 支持 的 输入 、 输 出 数据 源 


为 了 能 够 深入 地 理解 Spark Streaming, 接 下 来 ,通过 图 7-2 对 Spark Streaming 的 内 部 
工作 原理 进行 详细 讲解 。 


input data batches of batches of 
stream Spark input data Spark processed data 
> Streaming [ > Engine 口 口 DY 


图 7-2 Spark Streaming 工作 原理 


在 图 7-2 中 ,Spark Streaming 先 接收 实时 输入 的 数据 流 ,并 且 将 数据 按照 一 定 的 时 间 
间隔 分 成 一 批 批 的 数据 ,每 一 段 数据 都 转变 成 Spark 中 的 RDD, 接 着 交 由 Spark 引擎 进行 
处 理 , 最 后 将 处 理 结果 数据 输出 到 外 部 储存 系统 。 


7.3 Spark 的 DStream 


Spark Streaming 的 核心 是 DStream ,本 节 详 细 讲 解 DStream 相关 的 操作 。 


7.3.1 DStream 简介 


Spark Streaming 提供 了 一 个 高 级 抽象 的 流 , 即 DStream( 离 散 流 )。DStream 表示 连续 
的 数据 流 , 可 以 通过 Kafka、Flume 和 Kinesis 等 数据 源 创建 ,也 可 以 通过 现 有 DStream 的 高 
级 操作 来 创建 。DStream 的 内 部 结构 如 图 7-3 所 示 。 

从 图 7-3 可 以 看 出 ,DStream 的 内 部 结构 是 由 一 系列 连续 的 RDD 组 成 ,每 个 RDD 都 是 
一 小 段 由 时 间 分 隔 开 来 的 数据 集 。 实 际 上 ,对 DStream 的 任何 操作 ,最 终 都 会 转变 成 对 底 
层 RDD 的 操作 。 
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RDD @ time 1 RDD@time2 RDD@time3 RDD@ time4 


DStream =—_= data fom | data from data from 是 data from > 
time 0tol timelto2 time2to3 time3to4 


图 7-3 DStream 的 内 部 结构 


7.3.2 DStream 编程 模型 


为 了 便于 更 好 地 使 用 DStream, 接 下 来 ,通过 图 7-4 对 DStream 的 编程 模型 进行 详细 
讲解 。 


~、 
Spark Streaming 


streaming 


divide data 


computations 
ee Stream into expressed using 
live input batches DStreams 


data stream 


generate 


batches 

of input RDD 

data as transfor 
-mations 


4 Task Scheduler 


Spark batch jobs 
to execute RDD 
transformations 


图 7-4 DStream 编程 模型 


batches of Memory Manager 
results 


在 图 7-4 中 ,Spark Streaming 将 实时 的 数据 分 解 成 一 系列 很 小 的 批 处 理 任务 。 批 处 理 
引擎 Spark Core 把 输入 的 数据 按照 一 定 的 时 间 片 (如 1s) 分 成 一 段 一 段 的 数据 ,每 一 段 数据 
都 会 转换 成 RDD 输入 到 Spark Core 中 ,然后 将 DStream 操作 转换 为 RDD 算 子 的 相关 操 
作 , 即 转换 操作 、 窗 口 操作 以 及 输出 操作 。RDD 算 子 操作 产生 的 中 间 结 果 数 据 会 保存 在 内 
存 中 ,也 可 以 将 中 间 的 结果 数据 输出 到 外 部 存储 系统 中 进行 保存 。 


7.3.3 ”DStream 转换 操作 


Spark Streaming 中 对 DStream 的 转换 操作 会 转变 成 对 RDD 的 转换 操作 。 为 了 更 好 
地 描述 DStream 是 如 何 转 换 操作 的 , 接 下 来 ,通过 图 7-5 来 描述 DStream 的 转换 操作 。 


lines  _ linesfrom |__|linesfrom | _| linesfrom |_, linesfrom |_ > 

DStream time Otol time 1 to 2 time2to3 time3to 4 
flatMap 
operation 


Words from 
time 1 to 2 


words  __Jwords from 
DStream ltime0tol 


图 7-5 DStream 的 转换 操作 
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在 图 7-5 中 ,lines 表示 转换 操作 前 的 DStream,words 表示 转换 操作 后 生成 的 DStream。 对 


lines 做 flatMap 转换 操作 ,也 就 是 对 它 内 部 的 所 有 RDD 做 flatMap 转换 操作 。 因 此 ,在 Spark 


Streaming 中 ,可 以 通过 RDD 的 转换 算 子 生成 新 的 DStream( 即 words) 。 
接 下 来 ,通过 表 7-1 来 列举 DStream API 提供 的 与 转换 操作 相关 的 方法 。 


表 7-1 
方法 名 称 


DStream API 提供 的 与 转换 操作 相关 的 方法 
相关 说 明 


map(func) 


将 源 DStream 的 每 个 元 素 ,传递 到 函数 func 中 进行 转换 操作 ,得 到 一 
个 新 的 DStream 


flatMap(func) 


与 map() 相 似 ,但 是 每 个 输入 的 元 素 都 可 以 映射 0 或 者 多 个 输出 
结果 


filter(func) 


返回 一 个 新 的 DStream, 仅 包含 源 DStream 中 经 过 func 函数 计算 结 
果 为 true 的 元 素 


repartition(numPartitions) 


用 于 指定 DStream 分 区 的 数量 


union(otherStream) 


返回 一 个 新 的 DStream, 包 含 源 DStream 和 其 他 DStream 中 的 所 有 
元 素 


count() 


统计 源 DStream 中 每 个 RDD 包含 的 元 素 个 数 ,返回 一 个 新 
的 DStream 


reduce(func) 


使 用 函数 func( 有 两 个 参数 并 返回 一 个 结果 ) 将 源 DStream 中 每 个 
RDD 的 元 素 进行 聚合 操作 ,返回 一 个 新 DStream 


countByValue() 


计算 DStream 中 每 个 RDD 内 的 元 素 出 现 的 频次 ,并 返回 一 个 新 的 
DStream[(K,Long)], 其 中 K 是 RDD 中 元 素 的 类 型 ,Long 是 元 素 出 
现 的 频次 


reduceByKey(func, [numTasks]) 


当 一 个 类 型 为 (K,V) 键 值 对 的 DStream 被 调用 时 , 则 返回 一 个 类 型 
为 (K,V) 键 值 对 的 新 DStream, 其 中 每 个 键 的 值 V 都 是 使 用 聚合 函 
数 func 汇总 得 到 的 。 注 意 : 默认 情况 下 ,使 用 Spark 的 默认 并 行 度 
提交 任务 (本 地 模式 下 并 行 度 为 2, 集 群 模式 下 为 8), 可 以 通过 配置 
参数 numTasks 来 设置 不 同 的 并 行 任务 数 


join(otherStream, [num Tasks ]) 


当 被 调用 类 型 分 别 为 (K,V) 和 (K,W) 键 值 对 的 两 个 DStream 时 , 返 
回 类 型 为 (K,(V,W)) 键 值 对 的 一 个 新 DStream 


cogroup(otherStream, [numTasks ]) 


当 被 调用 的 两 个 DStream 分 别 含 有 (K,V) 和 (K,W) 键 值 对 时 , 则 返 
回 一 个 (K,Seq[V],Seq[W]J) 类 型 的 新 DStream 


transform(func) 


通过 对 源 DStream 中 的 每 个 RDD 应 用 RDD-to-RDD 函数 返回 一 个 
新 DStream, 这 样 就 可 以 在 DStream 中 做 任意 的 RDD 操作 


updateStateByKey(func) 


返回 一 个 新 状态 的 DStream, 其 中 通过 在 键 的 先前 状态 和 键 的 新 值 上 
应 用 给 定 函 数 func 来 更 新 每 一 个 键 的 状态 。 该 操作 方法 主要 被 用 于 


维护 每 一 个 键 的 任意 状态 数据 


在 表 7-1 中 ,列举 了 一 些 DStream API 提供 的 与 转换 操作 相关 的 方法 。DStream API 
提供 的 与 转换 操作 相关 的 方法 和 RDD API 有 些 不 同 , 不 同 之 处 在 于 RDD API 中 没有 提供 
transform() 和 updateStateByKey ( ) 两 个 方法 。 下 面 ,详细 讲解 transform() 和 update 


StateByKey() 这 两 个 方法 。 
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1. transform() 


通过 对 源 DStream 中 的 每 个 RDD 应 用 RDD-to-RDD 函数 返回 一 个 新 DStream ,这 样 
就 可 以 在 DStream 中 做 任意 的 RDD 操作 。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 transform() 方 法 将 一 行 语句 分 割 成 多 个 
单词 ,具体 实现 步骤 如 下 。 

(1) 执行 命令 nc-lk 9999 启动 服务 端 且 监听 Socket 服务 ( 即 Socket 服务 端口 号 为 
9999) ,并 输入 数据 I am learning Spark Streaming now, 具 体 命令 如 下 : 


(2) 打开 IDEA 开发 工具 ,创建 一 个 名 称 为 spark_chapter07 的 Maven 项 目 ( 跳 过 原型 
模板 的 选择 ) 。 

(3) 配置 pom. xml 文件 ,引入 Spark Streaming 相关 依赖 和 设置 源 代码 的 存储 路 径 。 

引入 Scala 编程 库 、Spark 核心 库 和 Spark Streaming 依赖 ,用 于 编写 Spark Streaming 
程序 ,具体 内 容 如 下 : 


配置 好 pom. xml 文件 后 ,需要 在 项 目的 /src/main 和 /src/test 目录 下 分 别 创建 scala 
目录 ,用 来 防止 sourceDirectory 和 testDirectory 标签 提示 错误 。 
(4) 在 spark_chapter07 项 目的 /src/main/scala 目录 下 创建 一 个 名 为 cn. itcast. 
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dstream 的 包 , 接着 在 包 下 创建 名 为 TransformTest 的 scala 类 , 主要 用 于 编写 
SparkStreaming 应 用 程序 ,实现 一 行 语 句 分 隔 成 多 个 单词 的 功能 ,具体 代码 如 文件 7-1 


所 示 。 


文件 7-1 


TransformTest. scala 


import org.apache.spark.streaming.dstream. {DStream,ReceiverInputDstream} 


import org.apache.spark.streaming.{Seconds, StreamingContext} 


import org.apache.spark. {SparkConf, SparkContext} 
object TransformTest { 


def main (args: Array[ string]): Unit ={ 
//1. 创 建 sparkconf 对 象 
Val sparkConf: SparkConf =new SparkConf () 


.SetAppName ("TransformTest ") .setMaster ("local[2]") 


//2. 创 建 sparkContext 对 象 , 它 是 所 有 任务 计算 的 源头 


Val sc: SparkContext =new SparkContext (sparkConf) 
/1/3. 设 置 日 志 级 别 
sc.setLogLevel ("WARN") 
//4. 创 建 streamingcontext, 需 要 两 个 参数 ,分 别 为 Sparkcontext 和 批 处 理 时 间 间 隔 
Val ssc: StreamingContext =new StreamingContext (sc, Seconds (5)) 
//5. 连 接 socket 服务 ,需要 socket 服务 地 址 ,端口 号 及 存储 级 别 (默认 的 ) 
val dstream: ReceiverInputDStream[ string] = 
ssc.socketTextSstream("192.168.121.134", 9999) 
//6. 使 用 RDD-to-RDD 函数 ,返回 新 的 DStream 对 象 ( 即 words) ,并 空格 切 分 每 行 
val words: Dstream[ string] =dstream.transform(rdd =>rdd 
.flatMap( .split(" "))) 
/17. 打 印 输出 结果 
words.print () 
//8. 开 启 流 式 计算 
ssc.start() 
//9. 用 于 保持 程序 一 直 运行 ,除非 人 为 干预 停止 


ssc.awaitTermination() 


上 述 代码 中 ,第 6 一 8 行 代码 创建 SparkConf 对 象 ,用 于 配置 Spark 环境 ;第 10 行 代 码 
创建 一 个 SparkContext 对 象 sc, 用 于 操作 Spark 集群 ;第 12 行 代码 设置 日 志 输 出 级 别 ;第 
14 一 17 行 代码 创建 StreamingContext 对 象 ,用 于 创建 DStream 对 象 ,通过 dstream 对 象 连 
接 socket 服务 ,获取 实时 的 流 数据 ;第 19 行 代码 通过 dstream 对 象 的 transform() 方 法 将 实 
时 的 流 数据 用 空格 进行 切 分 。 

运行 文件 7-1 中 的 代码 ,控制 台 输出 结果 如 图 7-6 所 示 。 

从 图 7-6 可 以 看 出 ,语句 TI am learning Spark Streaming now 在 5s 内 被 分 隔 成 6 个 


单词 。 


2. updateStateByKey() 


返 


加 


一 个 新 状态 的 DStream, 其 中 通过 在 键 的 前 一 个 状态 和 键 的 新 值 应 用 指定 函数 来 


更 新 每 一 个 键 的 状态 。 
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图 7-6 ， transform() 方 法 的 操作 


下 面 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 updateStateByKey() 方 法 进行 词 频 统计 。 
在 spark _chapter07 项 目的 /src/main/scala/cn. itcast. dstream 目录 下 创建 一 个 名 为 
UpdateStateByKeyTest 的 scala 类 ,主要 用 于 编写 Spark Streaming 应 用 程序 ,实现 词 频 统 
计 , 具 体 代码 如 文件 7-2 所 示 。 

文件 7-2 UpdateStateByKeyTest. scala 
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29 -map (word => (word,1)) 

30 /1/8. 调 用 updatestateByKey 操作 ,统计 单词 在 全 局 中 出 现 的 次 数 
3 Var result: Dstream[ (string, Int)] =wordandone 

32 -updatestateByKey (updateFunction) 
33 //9. 打 印 输出 结果 

34 result .print () 

35 //10. 开 启 流 式 计 算 

36 ssc.start () 

3 //11. 用 于 保持 程序 运行 ,除非 被 干预 停止 

38 ssc.awaitTermination() 

39 } 

40 } 


上 述 代码 中 ,第 7 一 11 行 代码 定义 一 个 方法 updateFunction() ,用 于 计算 每 个 时 间 间 隔 
的 累计 结果 ;第 14 一 15 行 代码 创建 SparkConf 对 象 , 用 于 配置 Spark 环境 ;第 17 行 代码 创 
建 SparkContext 对 象 ,用 于 操作 Spark 集群 ;第 19 行 代码 设置 日 志 输 出 级 别 ; 第 21 行 代码 
创建 StreamingContext 对 象 ,用 于 创建 DStream 对 象 .通过 dstream 对 象 连 接 socket 服务 ， 
获取 实时 的 流 数 据 ; 第 23 行 代码 配置 检查 点 目录 (使 用 updateStateByKey() 方 法 必须 配置 
该 目录 ); 第 28 行 代 码 通过 dstream 对 象 的 flatMap() 和 map() 方 法 将 实时 的 流 数据 用 空格 
进行 切 分 ,并 将 出 现 单词 的 次 数 记 为 1; 第 31 行 代 码 DStream 对 象 wordAndOne 通过 
updateStateByKey() 方 法 统计 单词 出 现 的 次 数 。 

运行 文件 7-2 中 的 代码 ,在 hadoop01 9999 端口 不 断 输 入 单词 ,具体 内 容 如 下 : 


[rootehadoop01 servers]#nc -1k 9999 
hadoop 5park itcast 
spark itcast 


从 上 述 内 容 可 以 看 出 ,在 Linux 系统 的 命令 行 输入 了 两 次 数据 ,然后 观察 IDEA 工具 控 
制 台 输出 ,输出 的 内 容 如 图 7-7 所 示 。 


Rune LE 
P|T | rinme: 1550739770000 ms 
| 
|| (itcast,1) 
| (Parkl) 
(hadoop, 1)| 
悦 | 号 
a || 19/02/21 17:02:52 WARN Blockanager: Block input-0-1550739772600 replicated to oa 
pF 
(itcast, 2) 
(spark, 2) 
(hadoop, 1) 


图 7-7 updateStateByKey() 方 法 的 操作 


从 图 7-7 可 以 看 出 ,IDEA 工具 的 控制 台 每 隔 5s 接收 一 次 数据 ,一 共 接 收 到 两 次 数据 ， 
并 且 每 接收 一 次 数据 就 会 进行 词 频 统 计 并 输出 结果 。 
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7.3.4 DStream 窗口 操作 


在 Spark Streaming 中 ,为 DStream 提供 了 窗口 操作 , 即 在 DStream 上 ,将 一 个 可 配置 
的 长 度 设置 为 窗口 ,以 一 个 可 配置 的 速率 向 前 移动 窗口 。 根 据 窗口 操作 ,对 窗口 内 的 数据 进 
行 计算 ,每 次 落 在 窗口 内 的 RDD 数据 会 被 聚合 起 来 计算 ,生成 的 RDD 会 作为 window 
DStream 的 一 个 RDD ,窗口 操作 如 图 7-8 所 示 。 


time 1 time2 time3 time 4 time 5 
original { ] | ] 
DStream 
window-based 
operation 

windowed 
DStream 

window window window 

attime 1 attime 3 attime 5 


图 7-8 DStream 的 窗口 操作 
在 图 7-8 中 ,该 窗口 操作 的 滑动 窗口 长 度 为 3 个 时 间 单 位 ,这 3 个 时 间 单 位 内 的 3 个 
RDD 会 被 聚合 起 来 进行 计算 处 理 ,然后 过 了 2 个 时 间 单 位 ,又 会 对 最 近 3 个 时 间 单 位 内 的 
数据 执行 滑动 窗口 进行 计算 。 
下 面 ,通过 表 7-2 来 列举 DStream API 提供 的 与 窗口 操作 相关 的 方法 。 
表 7-2 DStream API 提供 的 与 窗口 操作 相关 的 方法 


方法 名 称 


相关 说 明 


window(windowLength, slideInterval) 


返回 基于 源 DStream 的 窗口 进行 批 计算 后 的 一 个 
新 DStream 


countByWindow( windowLength, slideInterval) 


返回 基于 滑动 窗口 的 DStream 中 的 元 素数 


reduceByWindow ( func, windowLength, 


slideInterval) 


基于 滑动 窗口 的 源 DStream 中 的 元 素 进行 聚合 操作 , 返 
回 一 个 新 DStream 


reduceByKeyAndWindow(func, windowLength, 
slideInterval,[ numTasks ]) 


基于 滑动 窗口 对 (K,V) 类 型 的 DStream 中 的 值 , 按 K 应 
用 聚合 函数 func 进行 聚合 操作 ,返回 一 个 新 DStream 


reduceByKeyAndWindow(func, 
invFuncwindowLength, slidelInterval, 
[ numTasks ]) 


更 高 效 的 reduceByKeyAndWindow() 实 现 版 本 。 每 个 窗 
口 的 聚合 值 ,都 是 基于 先前 窗口 的 聚合 值 进行 增 量 计算 
得 到 。 该 操作 会 对 进入 滑动 窗口 的 新 数据 进行 聚合 操 
作 , 并 对 离开 窗口 的 历史 数据 进行 着 向 聚合 操作 ( 即 以 
InvFunc 参数 传人 ) 


countByValueAndWindow ( windowLength, 
slideInterval, [numTasks ]) 


基于 滑动 窗口 计算 源 DStream 中 每 个 RDD 内 每 个 元 素 
出 现 的 频次 ,返回 一 个 由 (K,V) 组 成 的 新 的 DStream, 其 
中 ,K 为 RDD 中 的 元 素 类 型 ; V 为 元 素 在 滑动 窗口 出 现 
的 次 数 


在 表 7-2 中 ,列举 了 一 些 DStream API 提供 的 与 窗口 操作 相关 的 方法 。 下 面 , 详 细 讲 解 
window() 和 reduceByKeyAndWindow() 两 个 方法 。 


和 
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window() 


基于 源 DStream 的 窗口 进行 批 次 计算 后 ,返回 一 个 新 DStream。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 window() 方 法 输出 3 个 时 间 单 位 长 度 的 
数据 。 在 spark_chapter07 项 目的 /src/main/scala/cn. itcast. dstream 目录 下 创建 一 个 名 为 
WindowTest 的 Scala 类 ,主要 用 于 编写 Spark Streaming 应 用 程序 ,实现 输出 3 个 时 间 单 位 
中 的 所 有 元 素 , 具 体 代码 如 文件 7-3 所 示 。 

文件 7-3 WindowTest. scala 


import org.apache.spark. {SparkConf, SparkContext} 
import org.apache.spark.streaming.{Seconds, StreamingContext} 
import org.apache.spark.streaming.dstream. {DStream,ReceiverIinputDstream} 
object WindowTest { 
def main(args: Array[ string]): Unit ={ 
//1. 创 建 sparkconf 对 象 
Val sparkConf: SparkConf =new SparkConf () 
.SetAppName ("WindowTest ") .setMaster ("local[2]") 
//2. 创 建 Sparkcontext 对 象 , 它 是 所 有 任务 计算 的 源头 
Val sc: SparkContext =new SparkContext (sparkConf) 
1/3. 设置 日 志 级 别 
sc.setLogLevel ("WARN") 
//4. 创 建 StreamingContext, 需 要 两 个 参数 ,分 别 为 sparkcontext 和 批 处 理 时间 间 隔 
Val ssc: StreamingContext =new StreamingContext (sc, Seconds (1) ) 
//5. 连 接 socket 服务 ,需要 socket 服务 地 址 、 端 口号 及 存储 级 别 (默认 的 ) 
Val dstream: ReceiverInputDstream[ string] =ssc 
.socketTextSstream("192.168.121.134", 9999) 
/16. 按 空格 切 分 每 一 行 
val words: Dstream[ String] =dstream.flatMap(_.split (" ")) 
/17. 调 用 window 操作 ,需要 两 个 参数 ,窗口 长 度 和 滑动 时 间 间 隔 
val windowWords: Dstream[ string] =words.window(Seconds (3) ,Seconds (1)) 
//8. 打 印 输出 结果 
windowWords .print () 
//9. 开 启 流 式 计算 
ssc.start() 
//10. 让 程序 一 直 运行 ,除非 人 为 干预 停止 


ssc.awaitTermination() 


上 述 代码 中 ,第 7 一 8 行 代码 创建 SparkConf 对 象 ,用 于 配置 Spark 环境 ;第 10 行 代码 
创建 SparkContext 对 象 ,用 于 操作 Spark 集群 ;第 12 行 代码 设置 日 志 输出 级 别 ; 第 14 一 17 
行 代码 创建 StreamingContext 对 象 ,用 于 创建 DStream 对 象 ,通过 dstream 对 象 连接 


socket 


流 数据 


运 


民 务 ,获取 实时 的 流 数 据 ; 第 19 行 代码 通过 dstream 对 象 的 flatMap() 方 法 将 实时 的 


空格 进行 切 分 ;第 21 行 代 码 调用 window() 方 法 ,用 于 限制 窗口 的 长 度 。 


行文 件 7-3 中 的 代码 ,在 hadoop01 9999 端口 每 秒 输入 一 个 数字 ,具体 内 容 如 下 : 
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[rootehadoop01 servers]#nc -lk 9999 
1 


Maw 


打开 IDEA 工具 ,可 以 看 到 控制 台 输出 窗口 长 度 为 3 个 时 间 单位 中 的 所 有 元 素 ,输出 的 
内 容 如 图 7-9 所 示 。 


Run: 
PT rine: 1550798642000 ms 
四 -- 
EE 
白 国 
习 | 吾 

i 
本 1 
四 2 


图 7-9 window() 方 法 的 操作 


从 图 7-9 可 以 看 出 ,窗口 长 度 为 3 个 时 间 单 位 以 内 的 元 素 都 可 以 输出 ,而 到 第 4 个 时 间 单 
位 的 时 候 就 看 不 到 数字 1 ,接着 当 第 5 个 时 间 单 位 时 ,就 看 不 到 数字 2, 这 说 明 此 时 1 和 2 已 经 
不 在 当前 的 窗口 中 。 


2. reduceByKeyAndWindow() 


基于 滑动 窗口 对 (Key,Value) 类 型 的 DStream 中 的 值 , 按 Key 应 用 聚合 函数 进行 聚合 
操作 ,返回 一 个 新 DStream。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 reduceByKeyAndWindow() 方 法 统计 
3 个 时 间 单 位 内 不 同 字母 出 现 的 次 数 。 在 spark _ chapter07 项 目的 /src/main/scala/cn. 
itcast. dstream 目录 下 创建 一 个 名 为 reduceByKeyAndWindowTest 的 Scala 类 ,用 于 编写 
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Spark Streaming 应 用 程序 ,具体 代码 如 文件 7-4 所 示 。 
文件 7-4 ReduceByKeyAndWindowTest. scala 


在 上 述 代码 中 ,调用 reduceByKeyAndWindow() 方 法 需要 3 个 参数 ,分 别 是 函数 、 窗 口 
长 度 及 时 间 间 隔 。 其 中 ,窗口 长 度 和 时 间 间 隔 必 须 是 批 处 理 时 间 间 隔 的 整数 倍 。 
运行 文件 7-4 中 的 代码 ,在 hadoop01 9999 端口 每 秒 输入 一 个 字母 ,具体 内 容 如 下 : 


打开 IDEA 工具 ,可 以 看 到 控制 台 输出 窗口 长 度 为 3 个 时 间 单 位 内 不 同 字母 出 现 的 次 
数 ,输出 内 容 如 图 7-10 所 示 。 

从 图 7-10 可 以 看 出 ,当时 间 为 4s( 即 1 550 799 799 000ms) 时 ,最 前 面 的 字母 a 已 经 不 
在 当前 的 窗口 中 .因此 字母 a 的 次 数 为 1; 当时 间 为 5s( 即 1 550 799 800 000ms) 时 ,第 2 个 
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Ye 由 B= ee 图 


二 二 


Time: 1550799796000 ms 


图 7-10 reduceByKeyAndWindow() 方 法 的 操作 


字母 a 也 不 在 当前 窗口 中 ,因此 就 没有 输出 字母 a 出 现 的 次 数 。 


7.3.5 ”DStream 输出 操作 


在 Spark Streaming 中 ,DStream 的 输出 操作 是 真正 触发 DStream 上 所 有 转换 操作 进 
行 计 算 ( 类 似 于 RDD 中 的 Action 算 子 操作 ) 的 操作 ,然后 经 过 输出 操作 ,DStream 中 的 数据 
才能 与 外 部 进行 交互 ,如 将 数据 写 信 到 分 布 式 文件 系统 、 数 据 库 以 及 其 他 应 用 中 。 

下 面 ,通过 表 7-3 列举 DStream API 提供 的 与 输出 操作 相关 的 方法 。 


表 7-3 DStream API 提供 的 与 输出 操作 相关 的 方法 


方法 名 称 


相关 说 明 


print() 


在 Driver 中 打印 出 DStream 中 数据 的 前 10 个 元 素 


saveAsTextFiles(prefix, [suffix]) 


将 DStream 中 的 内 容 以 文本 的 形式 进行 保存 ,其 中 每 次 
批 处 理 间隔 内 产生 的 文件 以 prefix-TIME_IN_MS 
[. suffix] 的 方式 命名 。 


saveAsObjectFiles(prefix, [suffix]) 


将 DStream 中 的 内 容 按 对 象 进行 序列 化 ,并 且 以 
SequenceFile 的 格式 保存 。 每 次 批 处 理 间隔 内 产生 的 文 
件 以 prefix-TIME_IN_MSL. suffix] 的 方式 命名 


saveAsHadoopFiles(prefix,[suffix]) 


将 DStream 中 的 内 容 以 文本 的 形式 保存 为 Hadoop 文件 ， 
其 中 每 次 批 处 理 间隔 内 产生 的 文件 以 prefix-TIME_IN_ 
MS[. suffix] 的 方式 命名 


foreachRDD(func) 


最 基本 的 输出 操作 ,将 func 函数 应 用 于 DStream 中 的 
RDD 上 ,这 个 操作 会 输出 数据 到 外 部 系统 ,如 保存 RDD 
到 文件 或 者 网 络 数据 库 等 
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在 表 7-3 中 ,列举 了 一 些 DStream API 提供 的 与 输出 操作 相关 的 方法 。 其 中 ,prefix 必 
须 设置 ,表示 文件 夹 名 称 的 前 级 ;[suffixj 是 可 选 的 ,表示 文件 夹 名 后 缀 。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 saveAsTextFiles() 方 法 将 nc(netcat 命 
令 的 缩写 , 主要 用 于 监听 端口 ) 交互 界 面 输入 的 内 容 保存 在 HDFS 的 /user/root/ 
saveAsTextFiles 文件 夹 下 ,并 将 每 个 批 次 的 数据 单独 保存 为 一 个 文件 夹 ,其 中 prefix 为 文 
件 夹 前 级 ,suffix 为 文件 夹 的 后 级 ,具体 代码 如 文件 7-5 所 示 。 

文件 7-5 SaveAsTextFilesTest. scala 


1 import org.apache.spark.{SparkConf, SparkContext} 

2 import org.apache.spark.streaming.{Seconds, StreamingContext} 

3 import org.apache.spark.streaming.dstream.ReceiverIinputDstream 
4 object SaveAsTextFilesTest { 

5 def main (args: Array[ string]): Unit ={ 

6 //1. 设 置 本 地 测试 环境 

地 System.setProperty ("HADOOP USER NAME", "root") 

8 //2. 创 建 sparkConf 对 象 

9 Val sparkConf: SparkConf =new SparkConf () 


10 .setAppName ("SaveAsTextFilesTest ") .setMaster ("local[2]") 
1 //3. 创 建 sparkcontext 对 象 , 它 是 所 有 任务 计算 的 源头 

2 Val sc: SparkContext =new SparkContext (sparkConf) 

13 /1/4. 设 置 日 志 级 别 

14 sc.setLogLevel ("WARN") 

15 //5. 创 建 streamingcontext, 需 要 两 个 参数 ,分 别 为 sparkcontext 和 批 处 理 时间 间 隔 
16 Val ssc: StreamingContext =new StreamingContext (sc, Seconds (5)) 
17 //6. 连 接 socket 服务 ,需要 socket 服务 地 址 ,端口 号 及 存储 级 别 (默认 的 ) 
18 val dstream: ReceiverInputDstream[ string] =ssc 
.SocketTextstream("192.168.121.134", 9999) 

20 1/17. 调用 saveAsTextFiles 操作 ,将 nc 交互 界面 输出 的 内 容 保存 到 HDFS 上 
21 dstream.saveAsTextFiles ("hdfs://hadoop01:9000/data/root 

22 /saveAsTextFiles/satf", "txt") 

23 ssc.start () 

24 ssc.awaitTermination() 

25 } 

26 } 


上 述 代码 中 ,第 7 行 代码 设置 本 地 测试 环境 ;第 9 一 10 行 代码 创建 SparkConf 对 象 ,用 
于 配置 Spark 环境 ;第 12 行 代 码 创 建 SparkContext 对 象 ,用 于 操作 Spark 集群 ;第 14 行 代 
码 设置 日 志 输 出 级 别 ; 第 16 一 19 行 代 码 创建 一 个 StreamingContext 对 象 ssc, 用 于 创建 
DStream 对 象 ,通过 dstream 对 象 连接 Socket 服务 ,获取 实时 的 流 数据 ;第 21 一 22 行 代码 
调用 saveAsTextFiles() 方 法 ,将 nc 交互 界面 输入 的 数据 保存 到 HDFS 上 。 

运行 文件 7-5 中 的 代码 ,并 通过 访问 浏览 器 查看 HDFS 的 /data/ root/saveAsTextFiles 
目录 下 的 文件 夹 , 效 果 如 图 7-11 所 示 。 

从 图 7-11 可 以 看 出 ,HDFS 的 data/root/saveAsTextFiles 目录 下 的 文件 夹 均 是 以 satf 
为 前 级 ,txt 为 后 级 ,说 明 saveAsTextFiles() 方 法 已 经 实现 将 nc 交互 界面 的 内 容 保 存在 
HDFS 上 。 
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Browse Directory 


/data/root/saveAsTextFiles 


Permission Owner Group Size Last Modified 

drwxr-xr-x supergroup 0B 2018/12/3 下 午 4:42:44 satf-1543826556000.bct 
drwxr-xr-x supergroup 0B 2018/12/3 下 午 4:42:44 satf-1543826557000.bct 
drwxr-xr-x supergroup 0B 2018/12/3 下 午 4:42:45 satf-1543826558000.bct 
drwr-xr-x supergroup 0B 2018/12/3 下 午 4:42:46 satf-1543826559000.bct 


drwxr-xr-x supergroup 0B 2018/12/3 下 午 4:42:47 satf-1543826560000.txt 


图 7-11 查看 HDFS 的 Web 界面 


7.3.6 ”DStream 实例 一 一 实现 网 站 热 词 排序 


接 下 来 ,以 实现 网 站 热 词 排序 为 例 ,分 析出 用 户 对 网 站 哪些 词 感 兴趣 或 者 不 感 兴趣 ,以 
此 来 增加 用 户 感 兴趣 词 的 内 容 , 减 少 不 感 兴趣 词 的 内 容 ,从 而 提升 用 户 访问 网 站 的 流量 。 
SparkStreaming 是 通过 DStream 编程 实现 热 词 排序 ,并 将 排名 前 三 的 热 词 输出 到 MySQL 
数据 表 中 进行 保 在。 具体 实现 步骤 如 下 。 


1. 创建 数据 库 和 表 
在 MySQL 数据 库 中 创建 数据 库 和 表 , 用 于 接收 处 理 后 的 数据 ,具体 语句 如 下 : 


mysql>create database spark; 

mysql>use spark; 

mysql>create table searchKeyWord (insert time date, keyword varchar (30), 
>search count integer); 


上 述 语句 中 ,字段 insert_time 代表 的 是 插入 数据 的 日 期 ;字段 keyword 代表 的 是 热 词 ， 
字段 search_count 代表 的 是 在 指定 的 时 间 内 该 热 词 出 现 的 次 数 。 
2. 导入 依赖 
在 pom. xml 文件 中 ,添加 MySQL 数据 库 的 依赖 ,具体 内 容 如 下 : 
<dependency> 
<groupId>mysql< /groupId> 
<artifactId>mysql- connector-java</artifactId> 


<version>5.1.38< /version> 
</dependency> 


3. 创建 Scala 类 ,实现 热 词 排序 
在 spark_chapter07 项 目的 /src/main/scala/cn. itcast. dstream 文件 夹 下 ,创建 一 个 名 
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为 HotWordBySort 的 Scala 类 ,用 于 编写 Spark Streaming 应 用 程序 ,实现 热 词 统计 排序 ， 
具体 实现 代码 如 文件 7-6 所 示 。 
文件 7-6 HotWordBySort. scala 
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上 述 代 码 中 ,第 8 一 9 行 代码 配置 本 地 测试 环境 ;第 11 行 代码 创建 SparkConf 对 象 ,用 
于 配置 Spark 环境 ;第 12 行 代 码 创 建 SparkContext 对 象 , 用 于 操作 Spark 集群 ;第 13 行 代 
码 设 置 日 志 输 出 级 别 ;第 15 一 17 行 代码 创建 StreamingContext 对 象 ,用 于 创建 DStream 对 
象 , 通 过 dstream 对 象 连接 socket 服务 .获取 实时 的 流 数 据 ; 第 21 一 22 行 代码 调用 map 转 
换 操作 , 通过 逗号 将 第 1 个 字段 和 第 2 个 字段 进行 切 分 ;第 23 一 24 行 代码 调用 
reduceByKeyAndWindow 窗口 操作 ,计算 10s 内 每 个 单词 出 现 的 次 数 ; 第 26 一 31 行 代码 调 
用 transform .map 转换 操作 和 sortByKey 排序 操作 最 终 对 单词 出 现 的 次 数 进行 降序 ,调用 
take() 操 作 将 排名 前 三 的 热 词 组 成 的 集合 转 成 RDD; 第 33 一 58 行 代码 调用 foreachRDD 输 
出 操作 ,将 输出 的 数据 保存 到 MySQL 数据 库 的 数据 表 searchKeyWord 中 。 

运行 文件 7-6 中 的 代码 ,并 在 hadoop01 9999 端口 输入 数据 ,具体 内 容 如 下 : 


在 MySQL 的 窗口 中 ,执行 语句 select * from searchKeyWord 查看 数据 表 searchKeyWord 
中 的 数据 ,具体 内 容 如 下 : 


第 7 章 Spark Streaming 实时 计算 框架 


3 = 
1 2018-12-04 | hadoop 1 3 1 
| 2018-12-04 | hive 1 区 1 
| 2018-12-04 | spark 1 ol 1 
有 CE + 


从 上 述 内 容 可 以 看 出 ,网 站 排名 前 三 的 热 词 已 经 输入 到 MySQL 中 的 searchKeyWord 
表 中 。 


7.4 Spark Streaming 整合 Kafka 实战 


Kafka 作为 一 个 实时 的 分 布 式 消 息 队 列 , 实 时 地 生产 和 消费 消息 。 在 这 里 ,可 以 利用 
Spark Streaming 实时 地 读 取 Kafka 中 的 数据 ,然后 再 进行 相关 计算 。 在 Spark 1. 3 版 本 
后 ,KafkaUtils 里 面 提供 了 两 个 创建 DStream 的 方式 ,一 种 是 KafkaUtils. createDstream 方 
式 , 另 一 种 为 KafkaUtils. createDirectStream 方式 。 本 节 详 细 介绍 DStream 的 这 两 种 方式 。 


7.4.1 KafkaUtils.createDstream 方式 


KafkaUtils. createDstream 方式 ( 即 基 于 Receiver 的 方式 ) ,主要 是 通过 Zookeeper 连接 
Kafka,receivers 接收 器 从 Kafka 中 获取 数据 ,并 且 所 有 receivers 获取 到 的 数据 都 会 保存 在 
Spark executors 中 ,然后 通过 Spark Streaming 启动 job 来 处 理 这 些 数 据 , 具 体 处 理 流程 如 
图 7-12 所 示 。 


Earlier Kafka integration 
with Receivers and WALs 


Streaming 


Continuously 
receive data 
using High Level API 


Update 
offsets in 


图 7-12 ”KafkaUtils. createDstream 方式 的 处 理 流程 


在 图 7-12 中 , 当 Driver 处 理 Spark Executors 中 的 job 时 ,默认 是 会 出 现 数据 丢失 的 情 
况 , 此 时 ,如 果 启 用 WAL 日 志 将 接收 到 的 数据 同步 地 保存 到 分 布 式 文件 系统 上 (如 
HDFS) , 当 数 据 由 于 某 种 原因 丢失 时 ,丢失 的 数据 能 够 及 时 恢复 。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 KafkaUtils. createDstream 实现 词 频 统 
计 , 具 体 实 现 步 又 如 下 。 
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1. 导入 依赖 


首先 需要 在 pom. xml 文件 中 添加 Spark Streaming 整合 Kafka 的 依赖 。 具 体内 容 
如 下 : 


2. 创建 Scala 类 ,实现 词 频 统 计 


在 spark_chapter07 项 目的 /src/main/scala/cn. itcast. dstream 目录 下 ,创建 一 个 名 为 
SparkStreaming_Kafka_createDstream 的 Scala 类 ,用 来 编写 Spark Streaming 应 用 程序 实 
现 词 频 统计 。 具 体 实现 代码 如 文件 7-7 所 示 。 

文件 7-7 SparkStreaming_Kafka_createDstream. scala 


第 7 章 Spark Streaming 实时 计算 框架 


之 和 Val receiverDstream:immutable 

30 .IndexedSseq[ReceiverInputDStream[ (string, string)]] 

31 =(1 to 3).map(x=>{ 

32 val stream: ReceiverInputDStream[ (string, string)] =KafkaUtils 

33 .Createstream(ssc,zkQuorum, groupId, topics) 
34 stream 

35 3 

36 //10. 使 用 ssc 中 的 union 方法 合并 所 有 的 receiver 中 的 数据 

37 val unionDstream: DStream[ (string, string)] =ssc 

38 -union (receiverDstream) 
39 //11.sparkstreaming 获取 topic 中 的 数据 

40 val topicData: DStream[String] =unionDStream.map(_。 2) 

41 //12. 按 空格 切 分 每 一 行 ,并 将 切 分 的 单词 出 现 次 数 记 录 为 1 

42 val wordandone: DStream[ (string, Int)] =topicData 

43 .flatMap( .split(" ")) .map((，1)) 
44 //13. 统 计 单词 在 全 局 中 出 现 的 次 数 

45 Val result: DStream[ (String，Int)] =wordAndone.reduceByKey(_+_) 

46 //14. 打 印 输出 结果 

47 result .print () 

48 //15. 开 启 流 式 计算 

49 55c.start() 

50 5sc.awaitTermination () 

51 } 

2 


上 述 代 码 中 ,第 9 一 12 行 代码 创建 SparkConf 对 象 ,用 于 配置 Spark 环境 ,开启 预 写 日 
志 ; 第 14 行 代码 创建 SparkContext 对 象 ,用 于 操作 Spark 集群 ;第 16 行 代码 设置 日 志 输 出 
级 别 ;第 18 行 代码 创建 StreamingContext 对 象 , 用 于 创建 DStream 对 象 ,通过 dstream 对 
象 设置 检查 点 ;第 22 一 27 行 代 码 指定 Zookeeper 的 地 址 、 指 定 Kafka 消费 者 以 及 指定 Topic 
的 相关 信息 ;第 29 一 35 行 代 码 通 过 高 级 API 方式 将 Kafpa 与 SparkStreaming 进行 整合 ;第 
37 一 38 行 代码 通过 ssc 对 象 中 的 union 方法 将 receiver 中 所 有 的 数据 进行 合并 ;第 40 行 代 
人 码 通过 ssc 获取 Topic 中 的 数据 ;第 42 一 43 行 代码 通过 flatMap() 和 map() 方 法 按 空格 切 
分 每 一 行内 容 , 并 将 切 分 单词 的 出 现 次 数 记 为 1; 第 45 行 代码 通过 reduceByKey() 方 法 统计 
单词 在 全 局 出 现 的 次 数 。 

运行 文件 7-7 中 的 代码 后 ,依次 在 hadoop01、hadoop02 和 hadoop03 服务 器 执行 命令 
zkServer. sh start 启动 Zookeeper 集群 ;然后 依次 在 hadoop01 .hadoop02 和 hadoop03 服务 
器 的 Kafka 根 目 录 下 执行 命令 bin/kafka-server-start. sh config/server. properties 启动 
Kafka 集群 。 


3. 创建 Topic, 指 定 消 息 的 类 别 


在 使 用 Kafka 发 送 消息 和 消费 消息 之 前 ,必须 先 要 创建 Topic, 用 来 指定 消息 的 类 别 。 
具体 命令 如 下 : 


$kafka-topics.sh --create \ 
--topic kafka_spark \ 
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上 述 命令 中 ,创建 了 一 个 名 为 kafka_spark 的 Topic, 并 且 设 置 分 区 数量 为 3, 备 份 数量 
为 1, 指定 了 Zookeeper 集群 的 地 址 。 执 行 上 述 命令 ,具体 内 容 如 下 : 


从 上 述 内容 可 以 看 出 ,名 为 kafka_spark 的 Topic 已 经 创建 完成 。 
4. 启动 Kafka 的 消息 生产 者 
启动 Kafka 的 消息 生产 者 ,生产 数据 ,具体 命令 如 下 : 


上 述 命令 中 ,指定 消息 生产 者 为 hadoop01 服务 器 。 执 行 上 述 命令 ,并且 指定 给 kafka_ 
spark 这 个 Topic 中 发 送 消息 。 具 体内 容 如 下 : 


打开 IDEA 工具 ,控制 台 输 出 的 内 容 如 图 7-13 所 示 。 


从 图 7-13 可 以 看 出 ,使 用 KafkaUtils. createDstream 方式 实现 了 词 频 统计 。 

注意 : 如 果 我 们 使 用 KafkaUtils. createDstream 方式 时 ,一 开始 系统 会 正常 运行 ,没有 
任何 问题 ,但 是 当 系 统 出 现 异 常 ,重启 SparkStreaming 程序 后 , 则 发 现 程序 会 重复 处 理 已 经 
处 理 过 的 数据 。 由 于 这 种 方式 是 使 用 Kafka 的 高 级 消费 者 API,topic 的 offset 偏 移 量 是 在 
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ZooKeeper 中 。 虽 然 这 种 方式 会 配合 着 WAL 日 志保 证 数据 零 丢 失 的 高 可 靠 性 ,但 却 无 法 
保证 数据 只 被 处 理 一 次 ,可 能 会 处 理 两 次 。 因 此 ,官方 已 经 不 推荐 使 用 这 种 方式 ,从 而 推荐 
使 用 KafkaUtils. createDirectStream 方式 。 


7.4.2 KafkauUtils. createDirectStream 方式 


由 于 KafkaUtils. createDstream 方式 有 一 个 次 端 , 即 无 法 保证 数据 只 被 处 理 一 次 , 因 
此 , 接 下 来 详细 讲解 官网 推荐 的 方式 , 即 KafkaUtils. createDirectStream 方式 。 

KafkaUtils. createDirectStream 方式 不 同 于 KafkaUtils. createDstream 方式 , 当 接 收 数 
据 时 , 它 会 定期 地 从 Kafka 中 Topic 对 应 Partition 中 查询 最 新 的 偏 移 量 , 再 根据 偏 移 量 范 
围 在 每 个 batch 里 面 处 理 数据 ,然后 Spark 通过 调用 Kafka 简单 的 消费 者 API( 即 低级 
APD 来 读 取 一 定 范围 的 数据 ,具体 处 理 流程 如 图 7-14 所 示 。 


Spa New Direct Kafka integration 


Streaming w/o Receivers and WALs 


Launch jobs 
using offset 
ranges 


Query latest offsets 
and decide offset 
ranges for batch 


Read data using 
offset ranges in 
jobs using Simple API 


Executor 


图 7-14 ”KafkaUtils. createDirectStream 方式 处 理 流程 


在 图 7-14 中 , 当 Driver 处 理 Spark Executors 中 的 job 时 ,系统 突然 出 现 异 常 ,重启 
Spark Streaming 程序 后 ,程序 会 重复 处 理 已 经 处 理 过 的 数据 .无 法 保证 数据 只 被 处 理 一 次 ， 
此 时 ,如 果 通 过 Spark 中 的 StreamingContext 对 象 将 偏 移 量 保 存 到 CheckPoint 中 ,就 可 以 
避免 因 Spark Streaming 和 Zookeeper 不 同步 ( 即 二 者 保存 的 偏 移 量 不 一 致 ) 导 致 的 数据 被 
多 次 处 理 的 现象 。 

接 下 来 ,通过 一 个 具体 的 案例 来 演示 如 何 使 用 KafkaUtils. createDirectStream 方式 来 
实现 词 频 统计 ,具体 实现 步 又 如 下 。 


1. 导入 依赖 


Ley 


在 pom. xml 文件 中 添加 Spark Streaming 整合 Kafka 的 依赖 ,具体 方法 同 KafkaUtils. 
createDStream 方式 ,这 里 不 作 闭 述 。 


2. 创建 Scala 类 ,实现 词 频 统计 


在 spark_chapter07 项 目的 /src/main/scala/cn. itcast. dstream 目录 下 ,创建 一 个 名 为 
SparkStreaming_Kafka_createDirectStream 的 Scala 类 ,用 来 编写 Spark Streaming 应 用 程 
序 实现 词 频 统 计 。 具 体 实现 代码 如 文件 7-8 所 示 。 
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文件 7-8 SparkStreaming_Kafka_createDirectStream. scala 


上 述 代码 中 ,第 9 一 11 行 代码 创建 SparkConf 对 象 ,用 于 配置 Spark 环境 ;第 13 行 代码 
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创建 SparkContext 对 象 , 用 于 操作 Spark 集群 ;第 15 行 代码 设置 日 志 输 出 级 别 ; 第 17 行 代 
码 创建 StreamingContext 对 象 ,用 于 创建 DStream 对 象 ; 第 19 行 代码 通过 ssc 对 象 设置 检 
查 点 ;第 21 一 25 行 代码 配置 Kafka 的 相关 参数 ;第 27 一 32 行 代码 通过 低级 API 方式 将 
Kafka 与 Spark Streaming 进行 整合 ;第 34 行 代 码 获 取 Kafka 中 Topic 的 数据 ;第 36 一 37 
行 代码 通过 flatMap() 和 map() 转 换 操作 按 空格 切 分 每 一 行内 容 , 并 将 切 分 单词 的 出 现 次 
数 记 为 1; 第 39 行 代 码 通过 reduceByKey 转换 操作 统计 单词 在 全 局 出 现 的 次 数 。 

运行 文件 7-8 中 的 代码 后 ,依次 在 hadoop01、hadoop02 和 hadoop03 服务 器 执行 命令 
zkServer. sh start 启动 Zookeeper 集群 ;然后 依次 在 hadoop01 .hadoop02 和 hadoop03 服务 
器 的 Kafka 根 目 录 下 执行 命令 bin/kafka-server-start. sh config/server. properties 启动 
Kafka 集群 。 


3. 创建 Topic, 指 定 消息 的 类 别 


在 使 用 Kafka 发 送 消息 和 消费 消息 之 前 ,必须 先 要 创建 Topic, 用 来 指定 消息 的 类 别 。 
具体 命令 如 下 : 


$kafka-topics.sh --create \ 

--topic kafka_direct0 \ 

--partitions 3 \ 

--replication-factor 1\ 

-一 Zookeeper hadoop01:2181, hadoop02:2181,hadoop03:2181 


在 上 述 命令 中 ,创建 一 个 名 为 kafka_direct0 的 Topic, 并 且 设 置 分 区 数量 为 3, 备份 数 
量 为 1 ,指定 了 Zookeeper 集群 的 地 址 。 执 行 上 述 命令 ,具体 效果 如 下 : 


[root@hadoop01~ J#kafka-topics.sh --create --topic kafka direct0 -~-partitions\ 
3—--replication- factor 1 -~zookeeper hadoop01:218]1,hadoop02:2181,hadoop03:2181 
WARNING: Due to limitations in metric names, topics with a period ('.') or 

underscore ('_') could collide. To avoid issues it is best to use either, but not both. 
Created topic "kafka_directO". 


从 上 述 内 容 可 以 看 出 ,名 为 kafka_direct0 的 Topic 已 经 创建 完成 。 
4. 启动 Kafka 的 消息 生产 者 
启动 Kafka 的 消息 生产 者 ,生产 数据 ,具体 命令 如 下 : 


$kafka- console-producer.sh \ 
--broker-1ist hadoop01:9092 \ 
~--topic kafka_direct0 \ 


上 述 命令 中 ,指定 消息 生产 者 为 hadoop01 服务 器 。 执 行 上 述 命 令 , 并 且 指 定 给 kafka_ 
direct0 这 个 Topic 发 送 消息 , 即 输入 数据 。 具 体内 容 如 下 : 


[rootehadoop01 servers]#kafka-console-producer.sh --broker-1list hadoop01:9092 
--topic kafka_direct0 
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>hadoop spark hbase kafka spark 
>kafka itcast itcast spark kafka spark kafka 


打开 IDEA 工具 ,控制 台 输出 的 内 容 如 图 7-15 所 示 。 


(itcast,2) 
(kafka, 4) 
(spark, 4) 
(hadoop, 1) 
(hbase,1) 


呈 
了 
地 
四 
号 
下 


图 7-15 使 用 KafkaUtils. createDirectStream 方式 的 控制 台 输 出 


从 图 7-15 可 以 看 出 ,使 用 KafkaUtils. createDirectStream 方式 实现 了 词 频 统计 。 


7.5 本 章 小 结 


Spark Streaming 是 Spark 生态 系统 中 实现 流 计算 功能 的 组 件 。 本 章 主要 介绍 了 Spark 
Streaming 的 相关 知识 ,包括 Spark Streaming 的 工作 原理 ,DStream 的 编程 模型 .DStream 
的 相关 操作 以 及 Spark Streaming 和 Kafka 的 整合 。 希 望 读者 可 以 通过 Spark Streaming 
与 Kafka 整合 进行 实时 计算 ,解决 实际 业务 中 实时 性 要 求 高 的 问题 。 


7.6 课 后 习题 


一 、 填 空 题 

1. 目前 ,市 场 上 常用 的 实时 计算 框架 有 、 Apache Storm、 和 
Yahoo! S4, 

2. Spark Streaming 的 特点 有 易 用 性 、 和 a 

3. Spark Streaming 支持 从 多 种 数据 源 获取 数据 ,包括 、 ~ Twitter、 
ZeroMQ、 、TCP Sockets 数据 源 。 

4. Spark Streaming 提供 了 一 个 高 级 抽象 的 流 , 即 

5， Spark Streaming 中 对 DStream 的 转换 操作 会 转变 成 对 的 转换 操作 。 

二 、 判断 题 

1. Apache Spark Streaming 是 Apache 公司 非 开源 的 实时 计算 框架 。 ( 让 

2. DStream 的 内 部 结构 是 由 一 系列 连续 的 RDD 组 成 ,每 个 RDD 都 是 一 小 段 时 间 分 隔 
开 来 的 数据 集 。 ¢ 


3. Spark Streaming 中 ,不 可 以 通过 RDD 的 转换 算 子 生成 新 的 DStream。 ( ) 
4. 在 Linux 系统 下 执行 nc 一 lk 9999 命令 启动 服务 端 且 监听 socket 服务 。 ( ) 
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5. 在 Spark Streaming 中 ,DStream 的 输出 操作 是 真正 触发 DStream 上 所 有 转换 操作 
进行 计算 。 
三 、 选择 题 


1. 下 列 选项 中 ,说 法 正确 的 是 哪个 ?(  ) 
A. 窗口 滑动 时 间 间 隔 必 须 是 批 处 理 时 间 间 隔 的 倍数 
B.Kafka 是 Spark Streaming 的 基础 数据 源 
C. DStream 不 可 以 通过 外 部 数据 源 获取 
D. reduce(func) 是 DStream 的 输出 操作 
2. 关于 Spark Streaming, 下 列 说 法 错误 的 是 哪 一 项 ? 〈 ) 
A. Spark Streaming 是 Spark 的 核心 子 框架 之 一 
B. Spark Streaming 具有 可 伸缩 ,高 吞吐 量 .容错 能 力 强 等 特点 
C. Spark Streaming 处 理 的 数据 源 可 以 来 自 Kafka 
D. Spark Streaming 不 能 和 Spark SQL、MIllib、GraphX 无 颖 集成 
3. DStream 的 转换 操作 方法 中 ,哪个 方法 可 以 直接 调用 RDD 上 的 操作 方法 ? ( ) 


A. transform(func) B. updateStateByKey(func) 
C. countByKey() D. cogroup(otherStream,[numTasks]) 
四 、 简 答题 


1. 简 述 Spark Streaming 的 工作 原理 。 
2. 简 述 DStream 的 编程 模型 。 


五 、 编 程 题 


编写 Spark Streaming 程序 ,实现 词 频 统计 的 功能 。 
提示 : 利用 Spark Streaming 与 Kafka 的 整合 ,通过 KafkaUtils. createDirectStream 方 
式 来 实现 该 功能 。 
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学 习 目 标 

。 了 解 什么 是 机 器 学 习 。 

。 掌握 机 器 学 习 的 工作 流程 。 

。 了 解 Spark MLlib 的 基本 使 用 方法 。 
。 了 解 电 影 推 荐 系统 的 构建 流程 。 


MLlib 是 Spark 提供 的 处 理 机 器 学 习 方面 的 功能 库 ,该 库 包 含 了 许多 机 器 学 习 算法 , 开 
发 者 可 以 不 需要 深入 了 解 机 器 学 习 算法 就 能 开发 出 相关 程序 。 本 章 介绍 Spark MLlib 基本 
知识 以 及 使 用 方法 ,最 后 通过 构建 推荐 引擎 了 解 机 器 学 习 系 统 的 构建 思路 及 流程 。 


8.1 初 识 机 器 学 习 


8.1.1 什么 是 机 器 学 习 


随 着 互联 网 的 高 速 发 展 ,被 收集 并 应 用 于 分 析 的 数据 量 旦 现 出 爆发 式 增长 , 面 对 如 此 量 
级 的 数据 ,以 及 常见 的 实时 利用 该 数据 的 需求 , 仅 依靠 人 工 处 理 难 免 力 不 从 心 ,这 就 催生 了 
所 谓 的 大 数据 和 机 器 学 习 系统 。 

机 器 学 习 是 一 门 多 领域 的 交叉 学 科 ,涉及 概率 论 .统计 学 .逼近 论 . 凸 分 析 、 算 法 复杂 度 
理论 等 多 门 学 科 , 专 门 研究 计算 机 如 何 模 拟 或 实现 人 类 的 学 习 行为 ,以 获取 新 的 知识 或 技 
能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改 善 自 身 的 性 能 。 通 俗 地 讲 ,传统 计算 机 工作 时 需要 
接收 指令 ,并 按照 指令 逐步 执行 ,最 终 得 到 计算 结果 ;机 器 学 习 是 通过 某 种 算法 ,将 历史 数据 
进行 训练 得 出 某 种 模型 , 当 有 新 的 数据 提供 时 ,可 以 使 用 训练 产生 的 模型 对 未 来 进行 预测 。 

机 器 学 习 是 一 种 能 够 赋予 机 器 进行 自主 学 习 , 不 依靠 人 工 进行 自主 判断 的 技术 , 它 和 人 
类 对 历史 经 验 归 纳 的 过 程 有 着 相似 之 处 , 接 下 来 ,通过 图 8-1 对 机 器 学 习 和 人 类 思考 过 程 进 
行 对 比 。 

在 图 8-1 中 ,图 8-1(a) 图 是 机 器 学 习 的 过 程 ,图 8-1(b) 图 则 是 人 类 思考 的 过 程 。 人 类 在 
学 习 成 长 的 过 程 中 ,积累 了 很 多 历史 经 验 , 将 经 验 进行 归纳 总 结 , 得 到 规律 ,因此 当 人 类 遇 到 
一 些 问 题 时 ,总 能 从 事物 的 发 展 规律 找到 方向 ,进行 推测 ;而 机 器 学 习 中 的 训练 和 预测 过 程 
可 以 近似 看 作 人 类 的 归纳 和 推测 的 过 程 。 从 图 8-1 中 可 以 发 现 , 机 器 学 习 思 想 并 不 复杂 , 仅 
仅 是 对 人 类 学 习 成 长 过 程 的 一 个 模拟 ,由 于 机 器 学 习 不 是 通过 编程 的 形式 得 出 结果 ,因此 它 
的 处 理 过 程 不 是 因果 的 逻辑 ,而 是 通过 归纳 思想 得 出 相关 结论 。 这 也 可 以 联想 到 人 类 为 什 
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时 8 


历史 数据 人 类 经 验 
| | 
[am | 模型 | | 天 输入 .| 和 入 | 天 -一 未 来 
人 机 器 学 习 过 各 (b) 人 类 思考 的 过 各 


图 8-1 机 器 学 习 与 人 类 思考 过 程 对 比 


么 要 学 习 历史 ,历史 实际 上 是 人 类 对 过 往 经 验 的 总 结 , 俗 话说 “历史 总 是 惊人 的 相似 ”, 通 过 
学 习 历 史 , 可 以 从 中 归纳 出 事物 发 展 的 规律 ,从 而 指导 今后 的 工作 。 

根据 数据 类 型 和 需求 的 不 同 , 建 模 方式 也 会 不 同 。 在 机 器 学 习 领 域 中 ,按照 学 习 方式 分 
类 ,可 以 让 研究 人 员 在 建 模 和 算法 选择 的 时 候 ,根据 输入 数据 来 选择 合适 的 算法 ,从 而 得 到 
更 好 的 效果 ,通常 机 器 学 习 可 以 分 为 下 面 两 类 。 

(1) 有 监督 学 习 。 通 过 已 有 的 训练 样本 ( 即 已 知 数据 以 及 其 对 应 的 输出 ) 训 练 得 到 一 个 
最 优 模型 ,再 利用 这 个 模型 将 所 有 的 输入 映射 为 相应 的 输出 ,对 输出 进行 简单 的 判断 从 而 实 
现 分 类 的 目的 。 如 分 类 回归 和 推荐 算法 都 属于 有 监督 学 习 。 

(2) 无 监督 学 习 。 针 对 类 别 未 知 ( 没 有 被 标记 ) 的 训练 样本 ,需要 直接 对 数据 进行 建 模 ， 
人 们 无 法 知道 要 预测 的 答案 。 如 聚 类 、 降 维和 文本 处 理 的 某 些 特征 提取 都 属于 无 监督 学 习 。 


8.1.2 机 器 学 习 的 应 用 


机 器 学 习 强 调 3 个 关键 词 : 算法 ,经 验 和 性 能 。 在 数据 的 基础 上 ,通过 算法 构建 出 模 
型 ,然后 用 训练 模型 测试 已 有 的 数据 集 进 行 评估 ,如 果 评 估 达 到 要 求 , 就 将 模型 应 用 于 生产 
环境 中 ,如 果 该 模型 没有 很 好 的 表现 ,那么 就 需要 重新 调整 算法 参数 ,最 终 获 得 一 个 满意 的 
模型 来 处 理 其 他 的 数据 。 机 器 学 习 技术 和 方法 已 经 被 成 功 应 用 到 多 个 领域 ,如 个 性 化 推荐 
系统 、 计 算 机 视觉 语音 识别 、 自 然 语言 处 理 以 及 智能 机 器 控制 等 领域 。 

机 器 学 习 是 人 工 智 能 的 核心 ,可 以 应 用 于 各 行 各 业 , 与 人 们 的 生活 息息相关 。 以 下 是 机 
器 学 习 应 用 的 常见 领域 。 


1. 电子 商务 


机 器 学 习 在 电 商 领域 的 应 用 主要 涉及 搜索 .广告 推荐 3 个 方面 ,在 机 器 学 习 的 参与 下 ， 
搜索 引擎 能 够 更 好 地 理解 语义 ,对 用 户 搜索 的 关键 词 进行 匹配 ,同时 它 可 以 对 点 击 率 与 转化 
率 进行 深度 分 析 , 更 有 利于 用 户 选 择 符合 自己 需求 的 商品 。 


2. 医疗 


普通 医疗 体系 并 不 能 永远 保持 精准 且 快 速 的 诊断 ,在 目前 的 研究 阶段 中 ,技术 人 员 利 用 
机 器 学 习 对 上 百 万 个 病例 数据 库 的 医学 影像 进行 图 像 识别 及 分 析 , 并 训练 模型 ,帮助 医生 做 
出 更 为 精准 高 效 的 诊断 。 
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3. 金融 

机 器 学 习 正在 对 金融 行业 产生 重大 的 影响 ,在 金融 领域 最 常见 的 应 用 是 过 程 自动 化 ,该 
技术 可 以 蔡 代 体力 劳动 ,从 而 提高 生产 力 。 摩 根 大 通 推出 了 利用 自然 语言 处 理 技术 的 智能 
合同 的 解决 方案 ,该 解决 方案 可 以 从 文件 合同 中 提取 重要 数据 ,大 大 节省 了 人 工 体力 劳动 成 
本 。 机 器 学 习 还 可 以 应 用 于 风 控 领域 ,银行 通过 大 数据 技术 ,监控 账户 的 交易 参数 ,分 析 持 
卡 人 的 用 户 行为 ,从 而 判断 该 持 卡 人 的 信用 级 别 。 


8.2 Spark 机 器 学 习 库 MLlib 的 概述 


MLlib 是 Spark 提供 的 可 扩展 的 机 器 学 习 库 , 其 特点 是 采用 较为 先进 的 迭代 式 、 内 存 存 
储 的 分 析 计 算 ,使 得 数据 的 计算 处 理 速度 大 大 高 于 普通 的 数据 处 理 引擎 。 本 节 详 细 讲解 
Spark MLlib 。 


8.2.1 MLlib 的 简介 

MLlib 采用 Scala 语言 编写 ,借助 了 函数 式 编程 设计 思想 ,开发 人 员 在 开发 的 过 程 中 只 
需要 关注 数据 ,而 不 需要 关注 算法 本 身 ,所 有 要 做 的 就 是 传递 参数 和 调试 参数 。MLlib 机 器 
学 习 库 还 在 不 停 地 更 新 中 ,Apache 的 相关 研究 人 员 也 在 不 停 地 为 MLlib 库 添 加 更 多 的 机 
器 学 习 算 法 ,MLlib 的 算法 架构 如 图 8-2 所 示 。 
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图 8-2 MLlib 的 算法 架构 
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在 图 8-2 中 ,MLlib 主要 包含 两 部 分 ,分 别 是 底层 基础 和 算法 库 。 其 中 ,底层 基础 包括 
Spark 的 运行 库 、 矩 阵 库 和 向 量 库 , 向 量 接口 和 矩阵 接口 是 基于 Netlib 和 BLAS/LAPACK 
开发 的 线性 代数 库 Breeze; 算 法 库 包括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 梯 度 下 降 和 特征 提取 等 
算法 。 


8.2.2 ”Spark 机 器 学 习 工作 流程 


Spark 中 的 机 器 学 习 流程 大 致 分 为 3 个 阶段 , 即 数据 准备 阶段 .训练 模型 评估 阶段 以 及 
部 署 预测 阶段 。 


1. 数据 准备 阶段 


图 8-3 所 示 ,在 数据 准备 阶段 ,需要 将 数据 收集 系统 采集 的 原始 数据 进行 数据 预 处 理 ， 
清洗 后 的 数据 便于 提取 特征 字段 与 标签 字段 ,从 而 生产 机 器 学 习 所 需 的 数据 格式 ,然后 将 数 
据 随 机 分 为 3 个 部 分 , 即 训练 数据 模块 ,验证 数据 模块 和 测试 数据 模块 。 


训练 数据 
数据 收集 -| 原始 数据 -| 数据 清洗 特征 提取 一 | 验证 数据 
测试 数据 


图 8-3 数据 准备 阶段 


2. 训练 模型 评估 阶段 


图 8-4 所 示 , 通 过 Spark MLlib 库 中 的 函数 将 训练 数据 转换 为 一 种 适合 机 器 学 习 模型 
的 表现 形式 ,对 于 许多 模型 来 说 ,可 以 将 其 理解 为 包含 数值 数据 的 向 量 或 者 矩阵 。 然 后 使 用 
验证 数据 集 对 模型 进行 测试 来 判断 准确 率 , 这 个 过 程 需要 重复 许多 次 ,才能 得 出 最 佳 模型 , 
最 后 使 用 测试 数据 集 再 次 检验 最 佳 模型 ,以 避免 过 渡 拟 合 的 问题 ,如 果 训 练 评 估 阶 段 准 确 率 
很 高 ,而 使 用 测试 数据 阶段 准确 率 低 ,就 说 明 可 能 有 过 拟 合 的 问题 。 


训练 数据 -| 二 一 | 模型 测试 一 一 | 测试 结果 验证 数据 | 


1 


1 
测试 数据 | 一 -| 最 佳 模型 | 一 -| 测试 结 果 


图 8-4 训练 模型 评估 阶段 
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3. 部 署 预测 阶段 


图 8-5 所 示 ,通过 多 次 训练 测试 得 到 最 佳 模型 后 ,就 可 以 部 署 到 生产 系统 中 ,在 该 阶段 
的 生产 系统 数据 ,经 过 特征 提取 产生 数据 特征 ,使 用 最 佳 模型 进行 预测 ,最 终 得 到 预测 结果 。 
这 个 过 程 也 是 重复 检验 最 佳 模型 的 阶段 ,可 以 使 生产 系统 环境 下 的 预测 更 加 准确 。 


最 佳 模型 
新 数据 ~| 特征 提取 y 预测 结果 


图 8-5 部署 测试 阶段 


8.3 数据 类 型 


MLlib 的 主要 数据 类 型 包括 本 地 向 量 \ 标 注 点 本 地 和 矩阵。 本 地 向 量 与 本 地 矩阵 是 提供 
公共 接口 的 简单 数据 模型 , Breeze 和 Jblas 提供 了 底层 的 线性 代数 运算 。 在 监督 学 习 中 使 
用 标注 点 类 型 表示 训练 样本 。 


8.3.1 本 地 向 量 


本 地 向 量 分 为 密集 向 量 (Dense) 和 稀 朴 向 量 (Sparse) ,密集 向 量 是 由 Double 类 型 的 数 
组 支持 ,而 稀 朴 向 量 是 由 两 个 并 列 的 数组 (索引 、 值 ) 支 持 。 例 如 ,向 量 (1.0,0.0,3.0) 的 密集 
向 量 表示 的 格式 为 [1.0,0.0,3.0], 由 稀 朴 向 量 表 示 的 格式 为 (3,[0,2],[1.0,3.0]), 其 中 3 
是 向 量 (1.0,0.0,3.0) 的 长 度 ,[0,2] 是 向 量 中 非 0 维度 的 索引 值 , 即 向 量 索引 0 和 2 的 位 置 
为 非 0 元 素 ,[1.0.3.0] 是 按照 索引 排列 的 数组 元 素 值 。 

本 地 向 量 的 基 类 是 Vector,MLlib 提供 了 DenseVector 和 SparseVector 类 ,官方 建议 
使 用 Vectors 工具 类 下 的 工厂 方法 来 创建 本 地 向 量 ,创建 方式 如 下 所 示 。 


# 导 包 

scala> import org.apache.spark.mllib.linalg. {Vector, Vectors} 

# 创建 一 个 密集 本 地 向 量 

scala>val dv:Vector =Vectors .dense(1.0,0.0,3.0) 

dv: org.apache.spark.mllib.linalg.Vector =[1.0,0.0,3.0] 

# 创 建 一 个 稀疏 本 地 向 量 

scala>val svl: Vector =Vectors.sparse (3, Array (0, 2), Array (1.0, 3.0)) 
sv1: org.apache.spark.mllib.linalg.Vector = (3,[0,2],[1.0,3.0]) 
# 通 过 指定 非 零 项 目 ,创建 稀疏 本 地 向 量 

scala>val sv2: Vector =Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))) 
sv2: org.apache.spark.mllib.linalg.Vector = (3,[0,2],[1.0,3.0]) 


需要 说 明 的 是 ,在 Scala 中 ,默认 会 导入 scala. collection. immutable. Vector 包 , 所 以 必 
须 显 式 导 入 org. apache. spark. mllib. linalg. Vector 才能 使 用 MLlib 提供 的 Vector 类 。 
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8.3.2 标注 点 


标注 点 是 一 种 带 有 标签 的 本 地 向 量 ,标注 点 通常 用 于 监督 学 习 算 法 中 ,MLlib 使 用 
Double 数据 类 型 存储 标签 ,因此 可 以 在 回归 和 分 类 中 使 用 标记 点 。 如 果 只 有 两 种 分 类 可 以 
使 用 二 分 法 , 则 正 样 本 标签 为 1.0, 负 样本 标签 为 0.0; 对 于 多 分 类 问题 来 说 ,标签 是 一 个 以 
0 开始 的 索引 序列 ,如 0,1,2… 

标注 点 的 实现 类 是 org. apache. spark. mllib. regression. LabeledPoint ,创建 标注 点 方式 
的 代码 如 下 。 


# 导 包 

scala>import org.apache.spark.mllib.linalg.vectors 

scala>import org.apache.spark.mllib.regression.LabeledPoint 

# 创建 带 有 正 标签 和 密集 向 量 的 标注 点 

scala>val pos =LabeledPoint (1.0, Vectors.dense (1.0, 0.0, 3.0)) 

Pos: org.apache.spark.mllib.regression.LabeledPoint = (1.0,[1.0,0.0,3.0]) 

# 创建 带 有 负 标签 和 稀疏 向 量 的 标注 点 

scala>val neg =LabeledPoint (0.0, Vectors.sparse(3, Array (0, 2), Array (1.0, 3.0))) 
neg: org.apache.spark.mllib.regression.LabeledPoint = (0.0, (3,[0,2],[1.0,3.0])) 


稀疏 向 量 数据 在 机 器 学 习 应 用 中 较为 常见 , MLlib 支持 读 取 LIBSVM 的 格式 数据 ， 
LIBSVM 格式 是 一 种 每 一 行 表示 一 个 标签 稀 朴 向 量 的 文本 格式 ,其 格式 如 下 : 


label indexl:valuel index2:Value2…… 


上 述 格 式 中 ,label 是 该 样本 点 的 标签 值 ,index: value 代表 了 该 样本 向 量 中 所 有 非 零 的 
索引 和 元 素 值 ,需要 注意 的 是 ,index 是 以 1 递增 的 。 


8.3.3 本 地 矩阵 


本 地 矩阵 具有 整 型 的 行 和 列 索引 值 以 及 Double 类 型 的 元 素 值 , 它 存储 在 单个 机 器 上 。 
MLlib 支持 密集 矩阵 和 稀 朴 矩阵 ,密集 矩阵 将 所 有 元 素 的 值 存 储 在 一 个 列 优先 的 双 精 度数 
组 中 ,而 稀 朴 矩阵 则 将 以 列 优先 的 非 零 元 素 压 缩 到 稀 朴 列 (CSC) 格 式 中 。 

本 地 和 矩阵 的 基 类 是 Matrix, DenseMatrix 和 SparseMatrix 均 是 Matrix 的 继承 类 。 创 建 
本 地 矩阵 方式 的 代码 如 下 。 


# 导 包 

scala> import org.apache.spark.mllib.linalg. {Matrix, Matrices} 

# 创建 一 个 3 行 2 列 的 密集 矩阵 

scala>val dm: Matrix =Matrices.dense (3, 2,Array (1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 

dm: org.apache.spark.mllib.linalg.Matrix= 

1.0 2.0 

3.0 4.0 

5.0 6.0 

# 创建 一 个 3 行 2 列 的 稀 朴 矩阵 

scala>val sm: Matrix =Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8)) 
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上 述 是 创建 本 地 和 拢 阵 的 方式 ,需要 注意 的 是 ,这 里 的 数组 参数 是 列 优先 的 , 即 按照 列 的 
方式 从 数组 中 提取 元 素 。 


8.4 Spark MLlib 基本 统计 


MLlib 提供 了 很 多 统计 方法 ,包含 摘要 统计 、 相 关 统 计 、 分 层 抽样 .假设 检验 、 随 机 数 生 
成 等 统计 方法 ,利用 这 些 统计 方法 可 以 帮助 用 户 更 好 地 对 结果 数据 进行 处 理 和 分 析 。 
8.4.1 摘要 统计 
在 MLlib 中 ,统计 量 的 计算 主要 用 到 Statistics 类 ,摘要 统计 主要 方法 及 相关 说 明 如 
表 8-1 所 示 。 
表 8-1 分 类 和 回归 算法 


count() 列 的 大 小 max() 每 列 的 最 大 值 
mean() 每 列 的 均值 min() 每 列 的 最 小 值 
variance() 每 列 的 方差 numNonzeros() 每 列 非 零 向 量 的 个 数 


接 下 来 ,使 用 Spark-Shell 演示 摘要 统计 方法 ,代码 如 下 。 
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[2.0,20.0,200.0] 

# 打 印 方差 

scala>println (summary .variance) 
[1.0,100.0,10000.0] 

# 打 印 每 列 非 零 元 素 的 个 数 
scala>println (summary .numNonzeros) 
[3.0,3.0,3.0] 


上 述 代 码 中 ,调用 Statistics 类 的 colStats() 方 法 ,可 以 获得 RDD[Vector] 列 的 摘要 统 
计 。colStats() 方 法 返回 了 一 个 实例 MultivariateStatisticalSummary 对 象 ,该 对 象 包含 了 列 
的 最 大 值 、 最 小 值 平 均值 方差. 非 零 元 素 的 数量 以 及 总 数 。 


8.4.2 相关 统计 


相关 系数 是 反应 两 个 变量 之 间 相 关 关 系 密切 程度 的 统计 指标 ,也 是 统计 学 中 常用 的 统 
计 方 式 , MLlib 提供 了 计算 多 个 序列 之 间 相 关系 数 的 方法 ,目前 MLlib 默认 采用 皮尔 森 相 
关系 数 计 算 方法 。 

皮尔 森 相 关系 数 (Pearson Correlation Coefficient) 也 称 皮尔 森 积 矩 相关 系数 (Pearson 
Product-Moment Correlation Coefficient) , 它 是 一 种 线性 相关 系数 ,计算 公式 如 下 : 


是 包 (入 = ]( 乞 | 

关于 上 述 公 式 符号 的 相关 介绍 如 下 : 

(1) r 表示 相关 系数 , 它 描述 的 是 变量 间 线 性 相关 强 弱 的 程度 , 取 值 范围 介 于 一 1 到 1 
之 间 ; 若 ”全 0, 表 明 两 个 变量 是 正 相关 , 即 一 个 变量 的 值 越 大 , 另 一 个 变量 的 值 也 会 越 大 ; 若 
7 所 0, 表 明 两 个 变量 是 负 相关 , 即 一 个 变量 的 值 越 大 另 一 个 变量 的 值 反而 会 越 小 。r 的 绝对 
值 越 大 表明 相关 性 越 强 , 需 要 注意 的 是 这 里 并 不 存在 因果 关系 。 若 "一 0, 表 明 两 个 变量 间 
不 是 线性 相关 ,但 有 可 能 是 其 他 方式 的 相关 (比如 曲线 方式 ); 

(2) n 表示 样本 量 ,分别 为 两 个 变量 的 观测 值 和 均值 ; 

(3) X 和 cx 分 别 为 样本 平均 值 和 样本 标准 差 。 

Statistics 提供 了 计算 序列 之 间 相关 性 的 方法 , 接 下 来 ,通过 Spark Shell 演示 相关 统计 
方法 ,具体 代码 如 下 。 


+ 导 包 

scala> import org.apache.spark.mllib.linalg.。 

scala> import org.apache.spark.mllib.stat.statistics 

scala> import org.apache.spark.rdd.RDD 

# 创 建 序列 

scala>val seriesX: RDD[ Double] =sc.parallelize (Array (1, 2, 3, 3, 5)) 
scala>val seriesY: RDD[Double] =sc.parallelize (Array (11, 22, 33, 33, 555)) 
# 计 算 seriesx, seriesY 的 相关 系数 


scala>val correlation: Double =Statistics.corr (seriesx, seriesy, "pearson") 
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在 上 述 代码 中 ,通过 Statistics. corrCdata,"pearson") 方 法 选择 使 用 皮尔 森 相 关系 数 算 
法 获得 数据 的 相关 系数 ,但 在 MLlib 中 ,还 提供 了 斯 皮尔 曼 等 级 相关 系数 方法 ,只 需要 在 
corr() 方 法 中 标注 spearman 参数 即 可 。 


8.4.3 分 层 抽样 


分 层 抽 样 法 也 叫 类 型 抽样 法 , 它 是 先 将 总 体 样本 按照 某 种 特征 分 为 若干 次 级 ( 层 ) ,然后 
再 从 每 一 层 内 进行 独立 取样 ,组 成 一 个 样本 的 统计 学 计算 方法 。 例 如 , 某 手 机 生产 厂家 估算 
当地 潜在 用 户 , 可 以 将 当地 居民 消费 水 平 作为 分 层 基础 ,减少 样本 中 的 误差 ,如 果 不 采取 分 
层 抽样 , 仅 在 消费 水 平 较 高 的 用 户 中 做 调查 ,就 不 能 准确 地 估算 出 潜在 的 用 户 。 接 下 来 , 通 
过 Spark-Shell 演示 分 层 抽 样 方法 ,具体 代码 如 下 。 
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在 上 述 代 码 中 ,用 到 了 两 种 分 层 抽 样 方法 ,其 中 sampleByKey() 方 法 需要 作用 于 一 个 键 
值 对 数组 ,其 中 Key 用 于 分 类 ,Value 可 以 是 任意 值 ,然后 通过 fractions 参数 定义 分 类 条 件 
和 采样 概率 ,fractions 参数 被 定义 成 一 个 Map 类 型 ,Key 是 键 值 对 数组 的 分 层 条件 , Value 
是 满足 Key 条 件 的 采样 比例 ,1. 0 代表 概率 为 100% ,withReplacement 代表 每 次 抽样 是 否 
有 放 回 。 

sampleByKeyExtra() 方 法 会 对 全 量 数据 做 采样 计算 。 对 于 每 个 类 别 , 都 会 产生 (fk * nk) 
个 样本 ,其 中 fk 是 键 为 fractions 的 Key 的 样本 类 别 采样 的 比例 ;nk 是 Key 所 拥有 的 样本 
数 。sampleByKeyExtra 采样 的 结果 会 更 准确 ,有 99. 99% 的 置信 和 度 , 但 耗费 的 计算 资源 也 
更 多 。 

sampleByKey() 方 法 和 sampleByKeyExact() 方 法 的 区 别 在 于 sampleByKey() 方 法 每 
次 都 得 通过 给 定 的 概率 以 一 种 类 似 于 掷 硬币 的 方式 来 决定 这 个 观察 值 是 否 被 放 和 人 样本 , 因 
此 一 遍 就 可 以 过 滤 完 所 有 数据 ,最 后 得 到 一 个 近似 大 小 的 样本 ,但 往往 并 不 够 准确 。 


8.5 分 类 


MLlib 支持 多 种 分 类 分 析 方 法 ,如 二 元 分 类 、 多 元 分 类 , 表 8-2 列 出 了 不 同 种 类 的 问题 
可 以 采用 不 同 的 分 类 算法 。 
表 8-2 分 类 和 回归 算法 


分 析 方 法 相关 算法 

一 元 分 类 线性 支持 向 量 机 、 逻 辑 回 归 、 决 策 树 、 随 机 森林 、 梯 度 提 升 树 、 
机 朴素 贝 叶 斯 

多 元 分 类 逻辑 回归 ,决策 树 、 随 机 森林 、 朴 素 贝 叶 斯 


分 类 通常 是 指 将 事物 分 成 不 同 的 类 别 ,在 分 类 模型 中 ,可 以 根据 一 组 特征 来 判断 类 别 ， 
这 些 特征 代表 了 物体 .事物 或 上 下 文 的 相关 属性 。 分 类 算法 又 被 称 为 分 类 器 , 它 是 数据 挖掘 
和 机 器 学 习 领 域 中 的 一 个 重要 分 支 , 它 属 于 有 监督 学 习 的 一 种 形式 ,用 带 有 类 标记 或 者 类 输 
出 的 训练 样本 来 训练 模型 。 要 想 评 价 一 个 分 类 器 的 好 坏 ,就 要 有 评价 指标 ,最 常见 的 就 是 准 
确 率 ,准确 率 是 指 被 分 类 器 分 类 正确 的 数据 的 数量 占 所 有 数据 数量 的 百分比 。 如 在 人 脸 识 
别 中 ,最 简单 的 是 将 每 一 个 像素 进行 分 类 ,在 自然 场景 下 进行 分 割 ,可 以 从 每 个 像素 点 判断 
是 不 是 人 类 面部 的 一 部 分 ,如 果 是 , 则 该 像素 点 的 标签 为 人 类 面部 。 

本 节 主 要 介绍 Spark MLlib 的 两 种 线性 分 类 方法 : 线性 支持 向 量 机 (SVM) 和 逮 辑 
回归 。 


8.5.1 线性 支持 向 量 机 


线性 支持 向 量 机 在 机 器 学 习 领 域 中 是 一 种 常见 的 判别 方法 ,是 一 个 有 监督 学 习 模 型 , 通 
常用 来 进行 模式 识别 .分 类 以 及 回归 分 析 。 关 于 SVM 有 着 大 量 理论 支撑 ,本 书 不 做 讨论 ， 
接 下 来 ,使 用 MLlib 提供 的 线性 支持 向 量 机 算法 训练 模型 ,具体 代码 如 下 。 


1 # 导 入 线性 支持 向 量 机 所 需 包 
2 scala>import org.apache.spark.mllib.classification 
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. {SVMModel, SVMWithscD} 
# 导 人 二 元 分 类 评估 类 
scala> import org.apache.spark.mllib.evaluation 


#MLUtils 提供 了 一 些 辅助 方法 ,用 于 加 载 ,保存 和 预 处 理 MLLib 中 使 用 的 数据 
scala> import org.apache.spark.mllib.util.MLUtils 
# 加 载 spark 官方 提供 数据 集 
10 scala>val data =MLUtils.loadLibsVvMFile(sc, 
pb "file:///export/servers/spark/data/mllib/sample libsvm data.txt") 
12 + 将 数据 的 60% 分 为 训练 数据 , 40% 分 为 测试 数据 
13 scala>val splits =data.randomsplit (Array (0.6, 0.4), seed =11L) 
14 scala>val training =splits(0) .cache () 


过 
4 
号 
6 .BinaryclassificationMetrics 
7 
8 
9 


15 scala>val test =splits (1) 
16 + 设置 迭代 次 数 
17 scala>val numIterations =100 


18 + 执行 算法 来 构建 模型 


19 scala>val model =SVMWithSGD.train (training, numIterations) 
20 + 用 测试 数据 评估 模型 


21 scala>val scoreAndLabels =test.map { point => 


22 Val score =model .predict (point.features) 
当世 (score, point.label) 

24 } 

25 + 获取 评估 指标 


26 scala>val metrics =new BinaryClassificationMetrics (scoreAndLabels) 
27 + 计算 二 元 分 类 的 PR 和 Roc 曲线 下 的 面积 

28 scala>val auROC =metrics.areaUnderROC () 

29 auROC;: Double =1.0 

30 + 保存 并 加 载 模型 

31 scala>model.save (5c，"target/tmp/scalaSVMWithSGDModel") 

32 scala>val sameModel = 

33 SVMModel.load (sc "target/tmp/scalaSVMWithSGDModel") 


上 述 代 码 中 将 数据 文件 分 为 两 份 .其 中 ,60% 的 数据 为 训练 模型 数据 ,40% 的 数据 为 测 
试 数据 ,用 来 评估 创建 的 模型 。 第 19 行 代码 调用 SVMWithSGD. train() 方 法 构建 训练 模 
型 。 为 了 检验 分 类 器 的 好 坏 程度 ,可 以 利用 MLlib 提供 的 二 元 分 类 评估 类 计算 ROC 面积 ， 
ROC 曲线 是 对 分 类 器 的 真 假 阳 性 率 图 形 化 的 解释 ,ROC 下 的 面积 (通常 称 为 AUC) 表 示 平 
均值 , 当 AUC 为 1.0 时 ,表示 是 一 个 完美 的 分 类 器 , 当 AUC 为 0.5 时 ,表示 该 模型 和 随机 
预测 效果 一 样 ,没有 必要 使 用 。 

评估 模型 完成 后 ,还 可 以 使 用 save() 方 法 将 模型 保存 至 HDFS 目录 中 ,下 次 只 需 调 用 
load() 方 法 即 可 加 载 该 模型 。 


8.5.2 逻辑 回归 

逻辑 回归 又 称 为 逻辑 回归 分 析 , 它 是 一 个 概率 模型 的 分 类 算法 ,常用 于 数据 挖掘 ,疾病 
自动 诊断 以 及 经 济 预测 等 领域 。 如 在 流行 病 学 研究 中 ,探索 引发 某 一 疾病 的 危险 因素 ,根据 
模型 预测 在 不 同 的 自 变 量 ( 年 龄 .性别 、 饮 食 习 惯 .幽门 螺杆 菌 感染 等 ) 情 况 下 ,推测 发 生 某 一 
疾病 的 概率 。 
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Spark MLlib 提供 了 逻辑 回归 算法 ,下 面具 体 演示 如 何 加 载 数 据 并 执行 训练 模型 方法 ， 
具体 代码 如 下 。 


# 导 人 逻辑 回归 所 需 包 
scala> import org.apache.spark.mllib.classification 
. {LogisticRegressionModel, LogisticRegressionWithLBFGS} 
# 导 人 分 类 评估 器 
scala> import org.apache.spark.mllib.evaluation.MulticlassMetrics 
scala> import org.apache.spark.mllib.regression.LabeledPoint 
scala> import org.apache.spark.mllib.util.MLUtils 
// 加 载 spark 官方 提供 数据 集 
scala>val data =MLUtils.1loadLibsVvMFile (sc, 
"file:///export/servers/spark/data/mllib/sample libsvm data.txt") 
+ 将 数据 的 60% 分 为 训练 数据 , 40% 分 为 测试 数据 
scala>val splits =data.randomsplit (Array (0.6, 0.4), seed =11L) 
scala>val training =splits (0) .cache () 
scala>val test =splits (1) 
+# 运 行 训练 算法 来 构建 模型 
scala>val model =new LogisticRegressionWithLBFGS () 
.setNumClasses (10) 
.run (training) 

+ 用 测试 数据 评估 模型 
scala>val predictionAndLabels =test .map { 

case LabeledPoint (label, features) => 

Val prediction =model .predict (features) 

(prediction, label) 
» 
+ 获取 评估 指标 
scala>val metrics =new MulticlassMetrics (predictionAndLabels) 
scala>val accuracy =metrics.accuracy 
accuracy: Double =1.0 
+ 保存 并 加 载 模型 
model .save (sc, "target/tmp/scalaLogisticRegressionWithLBFGSModel") 
Val sameMode] =LogisticRegressionModel 

.load (sc,"target/tmp/scalaLogisticRegressionWithLBFGSModel") 


评估 模型 的 性 能 不 仅仅 只 有 通过 ROC 曲线 一 种 方法 ,通常 在 二 元 分 类 中 使 用 的 评估 
方法 有 预测 正确 率 和 错误 率 、 准 确 率 和 召回 率 等 。 准 确 率 通常 用 于 评估 结果 的 质量 ,召回 率 
用 来 评估 结果 的 完整 性 。 在 二 元 分 类 问题 中 ,准确 率 定 义 为 真 阳性 数据 个 数 除 以 真 阳 性 和 
假 阳性 的 数据 总 数 , 其 中 真 阳 性 是 指 被 正确 预测 的 类 别 为 1 的 样本 , 假 阳 性 是 错误 预测 为 类 
别 1 的 样本 。 如 果 每 个 数据 被 分 类 器 预测 为 1 的 样本 ,那么 准确 率 即 为 1.0。 


8.6 


案例 一 一 构建 推荐 系统 


随 着 电子 商务 规模 的 不 断 扩大 ,商品 个 数 和 种 类 快速 增长 .顾客 需要 花费 大 量 的 时 间 才 
能 找到 自己 想 买 的 商品 ,这 样 就 会 造成 消费 者 花费 很 长 时 间 搜 索 商 品 ,从 而 造成 用 户 体验 下 
降 。 为 了 解决 这 些 问 题 ,个 性 化 推荐 系统 应 运 而 生 。 个 性 化 推荐 系统 是 建立 在 海量 数据 
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挖掘 基础 上 的 一 种 高 级 商务 智能 平台 ,为 顾客 购物 提供 完全 个 性 化 的 决策 支持 和 信息 
服务 。 


8.6.1 推荐 模型 分 类 


推荐 系统 的 研究 已 经 相当 广泛 ,也 是 最 为 大 众 所 知 的 一 种 机 器 学 习 模 型 ,目前 最 为 流行 
的 推荐 系统 所 应 用 的 算法 是 协同 过 滤 (Collaborative Filtering) ,协同 过 滤 通 常用 于 推荐 系 
统 ,这 项 技术 填补 了 关联 矩阵 的 缺失 项 ,从 而 实现 推荐 效果 。 简 单 地 说 ,协同 过 滤 是 利用 大 
量 已 有 的 用 户 偏好 ,来 估计 用 户 对 其 未 接触 过 的 物品 的 喜好 程度 。 

在 协同 过 滤 算 法 中 有 两 个 分 支 : 基于 群体 用 户 的 协同 过 滤 (UserCF) 和 基于 物品 的 协 
同 过 滤 (ItemCF) 。 


1. 基于 物品 的 推荐 (ltemCF) 


基于 物品 的 推荐 是 利用 现 有 用 户 对 物品 的 偏好 或 是 评级 情况 ,计算 物品 之 间 的 某 种 相 
似 度 ,以 用 户 接 触 过 的 物品 来 表示 这 个 用 户 ,然后 寻找 出 和 这 些 物品 相似 的 物品 ,并 将 这 些 
物品 推荐 给 用 户 。 


2. 基于 用 户 的 推荐 (UserCF) 


基于 用 户 的 推荐 ,可 以 用 “志趣 相投 ”一 词 来 表示 ,通常 是 对 用 户 的 历史 行为 的 数据 分 
析 , 如 购买 .收藏 的 商品 ,评论 内 容 或 搜索 内 容 , 通 过 某 种 算法 将 用 户 喜 好 的 物品 进行 打分 。 
根据 不 同 用 户 对 相同 物品 或 内 容 数 据 的 态度 和 偏好 程度 来 计算 用 户 之 间 的 关系 程度 ,在 有 
相同 喜好 的 用 户 之 间 进 行商 品 推荐 。 


8.6.2 利用 MLlib 实现 电影 推荐 


在 电影 推荐 系统 中 ,通常 分 为 针对 用 户 推荐 电影 和 针对 电影 推荐 用 户 两 种 方式 。 具 体 
实现 方式 取决 于 采用 的 推荐 模型 , 若 采用 基于 用 户 的 推荐 模型 , 则 会 利用 相似 用 户 的 评级 来 
计算 对 某 个 用 户 的 推荐 。 若 采用 基于 物品 的 推荐 模型 , 则 会 依靠 用 户 接触 过 的 物品 与 候选 
物品 之 间 的 相似 度 来 获得 推荐 。 

Spark MLlib 实现 了 交替 最 小 二 乘 (ALS) 算 法 , 它 是 机 器 学 习 的 协同 过 滤 式 推荐 算法 ， 
机 器 学 习 的 协同 过 滤 式 推荐 算法 是 通过 观察 所 有 用 户 给 产品 的 评分 来 推断 每 个 用 户 的 喜 
好 ,并 向 用 户 推荐 合适 的 产品 。 

接 下 来 分 步骤 讲解 利用 Spark MLlib 实现 电影 推荐 案例 的 核心 过 程 。 


1. 准备 训练 模型 数据 


MovieLens 是 历史 最 悠久 的 推荐 系统 , 它 由 美国 明尼苏达 大 学 计算 机 科学 与 工程 学 院 
的 GroupLens 项 目 组 创办 ,是 一 个 以 研究 为 目的 、 非 商业 性 质 的 实验 性 站 点 ,读者 可 以 从 该 
网 站 中 下 载 实验 数据 (ml-100k. zip 解压 包 ) 进 行 学 习 , 网 站 地 址 为 https://grouplens. org/ 
datasets/movielens/, 具 体 如 图 8-6 所 示 。 也 可 以 直接 在 Linux 系统 上 输入 以 下 命令 下 载 文 
件 ,具体 命令 如 下 。 
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€ 3 © [a Se | htips//grouplensorg/datasets/movielens/ 


older datasets 


MovieLens 100K Dataset 
Stable benchmark datasel 100,000 ralings fom 1000 users on 1700 movies Released 4/1998. 


» README bx 
» mL100k zip (size: 5 MB, checksum) 
» Index of unzipped fles 


Permalink http-/grouplens orgidatasets/movielens/100k/ 


MovieLens 1M Dataset 
Stable benchmark dataset 1 million ratings from 6000 users on 4000 movies. Released 2/2003. 


» README txt 
， mLImazp (size 6 MB, checksum) 


Permalink http./grouplens org/datasets/movielens/ 1 


MovieLens 10M Dataset 


Stable benchmark dataset. 10 milion ratings and 100,000 tag applications applied to 10,000 
72.000 usors, Released 1/2009, 


图 8-6 ”下载 实验 数据 


Swget http://files.grouplens.org/datasets/movielens/ml-100k.zip 


实验 数据 文件 下 载 完 成 后 ,将 其 进行 解压 , 若 没有 安装 解压 命令 , 则 在 解压 实验 数据 文 
件 之 前 , 需 执行 yum install unzip 命令 安装 解压 命令 ,然后 再 执行 解压 命令 解压 实验 数据 文 
件 , 命 令 如 下 。 


$yum install unzip 
Sunzip -j ml-100k 


最 终 将 解压 文件 上 传 到 HDFS 中 的 /spark/mldata 路 径 下 ,效果 如 图 8-7 所 示 。 


€  @ [9 Fes | hadoop015007D/explorerhtmlyspark/midata 


Ha 


Browse Directory 


/spark/midate 


Permission Sbe LastModified 


dwrxrx 08 。 201811/29 上 :4122705 


Hadoop, 2017 


图 8-7 上 传 至 HDFS 
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在 本 案例 中 ,主要 用 到 u. data 文件 (用 户 评 分 数据 ) 以 及 u. item 文件 (电影 数据 ) ,数据 
片段 分 别 如 图 8-8 和 图 8-9 所 示 。 
文件 u. data 中 ,共有 4 个 字段 ,每 列 字段 表示 用 户 id、 电 影 id 等 级 评价 和 时 间 截 。 


1 196 242 3 881250949 
2 186 302 3 891717742 
3%22 377 1 878887116 
3 244 51 2 880606923 
5 166 346 1 886397596 
© 298 474 4 884182806 


1IToY Story (1995) 101-UVan-19551 LEED: /7/0 inn con/M/rirle exact2Tov W205 rarv2013351 i010 000 
HR 
lIour Noms (1995) 10 S351 BEEDi//us ,Ledb, com/M/ chole-exacr?Foury20Roons20(19335) 10101919101010101010101010101010131010 
1Ges shorty 11995) 

40 
po giao) (1995) I01 Jon 19951 1 


ER OL 
rn ee Bs Jan- re 1//u9 .imdb.com/M/title exact ?Tvelvet20Monkeya 20t1595 010701 070101 0610131010101010101310 
TR 过 


ength :236344 lines:1583 ln:1 Col:1 Sel:0|0 


图 8-9 u.item 文 件 


文件 u.item 中 ,具有 多 个 字段 ,本 案例 主要 使 用 第 一 列 电影 id、 第 二 列 电 影 名 称 ,后 续 
将 针对 该 文本 进行 字符 串 处 理 。 


2. 编写 程序 ,训练 模型 
采用 Spark-Shell 读 取 u. data 数据 文件 ,将 其 转换 为 RDD, 执 行 命令 如 下 。 


$spark- shell --master local[2] 

+# 读 取 文件 转换 RDD 

scala>val dataRdd =sc.textFile("/spark/mldata/ml-100k/u.data") 
+ 输出 RDD 第 一 行 数据 

scala>dataRdd.first() 

res0: String =196 242 3 881250949 


从 上 一 步 已 经 得 知 , 该 数据 是 由 用 户 id、 电 影 id 等 级 评价 和 时 间 戳 依次 组 成 ,在 训练 模 
型 时 ,可 以 去 除 时 间 截 字段 ,使 用 take() 方 法 提取 前 3 个 字段 即 可 ,具体 代码 如 下 。 


scala>val dataRdds =dataRdd.map(_.split ("\t") .take (3) ) 
scala>dataRdds .first () 
resl: Array[ string] =Array (196, 242, 3) 
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根据 图 8-9 的 u. data 文件 内 容 可 知 ,使 用 \t 进行 分 隔 , 可 返回 一 个 Array[ String ] 类 型 
的 RDD, 分 别 对 应 用 户 id、 影 片 id 以 及 等 级 。 至 此 就 有 了 dataRdds 数据 集 ,可 以 使 用 first() 
数 查 看 第 一 行 数据 。 

下 面 就 可 以 使 用 Spark MLlib 训练 模型 了 ,首先 导入 MLlib 实现 的 ALS 算法 模型 库 。 


scala> import org.apache.spark.mllib.recommendation.ALS 


在 ALS 库 中 ,可 以 通过 调用 train() 函 数 来 训练 模型 ,具体 代码 如 下 。 


def train( 
ratings: RDD[Rating], 
rank: Int, 
iterations: Int, 
lambda: Double 
): MatrixFactorizationModel 


上 述 代码 中 ,train() 函数 需要 提供 4 个 参数 ,如 表 8-3 所 示 。 
表 8-3 ALS.train 命令 参数 说 明 
参数 名 称 相关 说 明 


ratings 训练 的 数据 格式 是 Rating(UserID,productID,rating) 的 RDD 


对 应 ALS 模型 中 的 因子 个 数 ,也 就 是 在 低 阶 近似 矩阵 中 的 隐 含 特征 个 数 , 因 子 个 数 一 般 


mk 越 多 越 好 ,但 是 也 会 加 大 内 存 开销 ,通常 值 为 10 一 200 

a 对 应 运算 时 的 迭代 次 数 ,减少 评级 矩阵 的 重建 误差 ,默认 值 为 5, 大 部 分 情况 下 设置 10 次 
lterations 左右 

lambda。 | 该 参数 控制 模型 的 正则 化 过 程 ,从 而 控制 模型 的 拟 合 程度 。 值 越 高 ,正则 化 越 严 历 ,该 参 


数 的 值 与 实际 数据 的 大 小 ,特征 和 稀 朴 程度 有 关 , 默 认 值 0. 01 


训练 模型 需要 Rating 格式 的 数据 ,可 以 将 dataRdds 使 用 map() 方 法 进行 转换 ,得 到 
Rating 格式 数据 ,传人 到 train() 函 数 ,具体 代码 如 下 。 


# 导 和 Rating 包 

scala> import org.apache.spark.mllib.recommendation.Rating 

scala>val ratings =dataRdds .map { case Array (user,movie, rating) => 
Rating (user.toInt,movie.toInt, rating.toDouble)} 

scala>ratings.first() 

res6: org.apache.spark.mllib.recommendation.Rating =Rating (196, 242,3.0) 


需要 注意 的 是 ,使 用 case 语句 来 提取 各 属性 对 应 的 变量 名 ,dataRdds 是 从 u. data 文本 
文件 中 转换 的 数据 ,因此 需要 把 String 类 型 转换 成 对 应 的 数据 类 型 ,提取 简单 特征 后 ,就 可 
以 调用 train( 〇 函数 训练 模型 ,代码 如 下 。 


scala>val model =ALS .train (ratings,50,10,0.01) 
model: org.apache.spark.mllib.recommendation.MatrixFactorizationModel = 
org.apache.spark.mllib.recommendation.MatrixFactorizationMode1@ 6580f76c 


197 


198 Spark 大 数据 分 析 与 实战 


调用 ALS. train 训练 数据 集 后 ,就 会 创建 推荐 引擎 模型 MatrixFactorizationModel( 矩 


阵 分 解 ) 对 象 ,该 对 象 成 员 如 表 8-4 所 示 。 


表 8-4 MatrixFactorizationModel 对 象 


对 象 成 员 相关 说 明 
predict(user: Int, product: Int): Double 计算 给 定 用 户 和 物品 的 预期 得 分 
productFeatures: RDD[(Int, Array[ Double])] 分 解 后 的 物品 矩阵 
rank: Int 分 解 后 的 参数 
userFeatures: RDD[(Int，Array[Double])] 分 解 后 的 产品 矩阵 


表 8-4 中 ,predict() 函 数 以 (user,product) 作 为 输入 参数 ,该 函数 将 为 每 一 对 生成 相应 


的 预测 得 分 ,具体 代码 如 下 。 


scala>val predictedRating =model .predict (100, 200) 
predictedRating: Double =1.1136730131397399 


从 上 述 执行 结果 可 以 看 出 ,该 模型 预测 用 户 id 二 100 对 电影 id 一 200 的 评级 约 为 1. 11。 
需要 注意 的 是 ,ALS 模型 的 初始 化 过 程 根据 硬件 环境 以 及 参数 等 因素 会 造成 不 同 的 结果 。 


3. 为 用 户 推荐 多 个 电影 


如 果 要 为 某 个 用 户 推荐 多 个 物品 ,可 以 调用 MatrixFactorizationModel 对 象 所 提供 的 
recommendProducts(user:Int,num:Int) 函数 来 实现 ,返回 值 即 为 预测 得 分 最 高 的 前 num 


个 物品 ,具体 代码 如 下 。 


+# 定 义 用 户 id 
scala>val userid =100 
+ 定义 推荐 数量 


scala>val num =10 


scala>val topRecoPro =model .recommendProducts (userid, num) 
topRecoPro: Array[org.apache.spark.mllib.recommendation.Rating] =Array( 


Rating (100, 207, 5.704436943409341), 
Rating (100, 845, 4.957373351732721), 
Rating (100, 489, 4.955561012970148), 
Rating (100, 242, 4.930681946988706)， 
Rating (100, 315, 4.927258436518516), 
Rating (100, 316, 4.905582861372857), 
Rating (100, 313, 4.8170984786843265), 
Rating (100, 12, 4.795107793201218), 
Rating (100, 451, 4.760165688538673), 
Rating (100, 485, 4.7560380607401)) 


从 上 述 代码 可 以 看 出 ,使 用 训练 完成 的 模型 进行 推荐 ,传人 参数 (user 一 100,num 一 10)， 
返回 结果 是 一 个 Rating 数据 类 型 的 数组 ,其 中 参数 分 别 表 示 用 户 id (user)、 推 荐 电影 
id(product) ,算法 得 出 的 评分 (rating) ,其 中 评分 越 高 ,代表 推荐 引擎 优先 推荐 这 件 物 品 。 
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Rating(100,207,5. 704436943409341) 数 据 表 示 针 对 id 一 100 的 用 户 ,预测 对 id 一 207 的 电 
影 ,评级 为 5.70 分 。 

为 了 更 直观 地 检测 推荐 效果 ,可 以 将 u. item 文件 中 的 电影 id 与 电影 名 称 进行 映射 , 因 
此 首先 读 取 u. item 文件 并 转换 为 RDD。 具 体 代码 如 下 。 


根据 图 8-9 中 u. item 文件 的 数据 格式 进行 分 析 , 可 以 通过 “| ?字符 分 隔 , 使 用 map() 函 
数 针对 每 一 项 数据 进行 转换 ,提取 前 两 个 数据 ,并 将 电影 id 电影 名 称 产生 映射 关系 。 具 体 
代码 如 下 。 


对 于 100 个 用 户 , 可 以 通过 Rating 对 象 的 rating 属性 来 对 推荐 的 电影 名 称 进行 匹配 ， 
具体 代码 如 下 。 


至 此 ,根据 用 户 推荐 电影 的 功能 实现 完成 。 
4. 将 物品 推荐 给 用 户 


如 果 要 为 某 个 物品 推荐 多 个 用 户 时 ,可 以 调用 MatrixFactorizationModel 对 象 所 提供 
的 recommendUsers(product: Int,num: Int) 孔 数 来 实现 ,其 中 product 参数 代表 被 推荐 的 
物品 id,num 为 推荐 物品 的 数量 ,最 终 返回 值 为 针对 这 件 物品 可 能 感 兴趣 的 num 名 用 户 , 具 
体 代码 如 下 。 
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通过 上 述 返回 结果 看 出 ,编号 为 100 的 电影 推荐 给 用 户 编号 为 495、30、272、8 和 68 这 
5 位 用 户 ,至 此 ,基于 物品 推荐 电影 的 功能 实现 完成 。 


8.7 ”本章 小 结 


本 章 主要 介绍 了 什么 是 Spark MLlib, 它 是 Spark 机 器 学 习 仓 库 , 整 合 了 统计 、 分 类 、 回 
归 .过滤 等 主流 的 机 器 学 习 算 法 ,并 且 提 供 了 丰富 的 API, 降 低 了 用 户 使 用 复杂 算法 的 门槛 。 
通过 本 章 的 学 习 , 读 者 能 够 了 解 机 器 学 习 的 基本 知识 ,以 及 利用 Spark MLlib 构建 简单 的 机 
器 学 习 模型 。 本 章 的 重点 内 容 是 利用 MLlib 实现 电影 推荐 系统 ,来 了 解构 建 机 器 学 习 的 
流程 。 


8.8 课 后 习题 


一 、 填 空 题 

1. 机 器 学 习 是 一 门 多 领域 交叉 学 科 , 涉 及 \ 统 计 学 .逼近 论 . 凸 分 析 、 
等 多 门 学 科 。 

2. 通常 ,机 器 学 习 的 学 习 形 式 分 类 有 _ 和 

3，MLlib 库 中 包含 了 一 些 通用 的 机 器 学 习 算法 和 工具 类 ， 包括 分 类 、 \ 聚 类 、 

4，MLlib 库 的 主要 数据 类 型 包括 \ 标 注 点 、 

5. 目前 ,MLlib 库 默 认 采 用 计算 方法 。 

二 、 判 断 题 


1. 机 器 学 习 中 的 训练 和 预测 过 程 可 以 看 作 人 类 的 归纳 和 推测 的 过 程 。 ( ) 
2. 本 地 向 量 分 为 密集 向 量 和 稀 朴 向 量 ,密集 向 量 是 由 两 个 并 列 的 数组 (索引 、 值 ) 支 持 ， 
而 稀 朴 向 量 是 由 Double 类 型 的 数组 支持 。 ( ) 
3. 标注 点 是 一 种 带 有 标签 的 本 地 向 量 ,通常 用 于 无 监督 学 习 算法 中 。 ( ) 
4. 逻辑 回归 又 称 为 逻辑 回归 分 析 ,是 一 种 狭义 的 线性 回归 分 析 模 型 。 ( ) 
5. 目前 ,最 为 流行 的 推荐 系统 所 应 用 的 算法 是 协同 过 滤 ,协同 过 滤 通 常用 于 推荐 系统 ， 
这 项 技术 是 为 了 填补 关联 矩阵 的 缺失 项 ,从 而 实现 推荐 效果 。 ( ) 


三 、 选 择 题 


1. 下 列 选项 中 ,对 于 机 器 学 习 的 理解 错误 的 是 哪 一 项 ? ( ) 
A. 机 器 学 习 是 一 种 让 计算 机 利用 数据 来 进行 各 种 工作 的 方法 
B. 机 器 学 习 是 研究 如 何 使 用 机 器 人 来 模拟 人 类 学 习 活动 的 一 门 学 科 
C. 机 器 学 习 是 一 种 使 用 计算 机 指令 来 进行 各 种 工作 的 方法 
D. 机 器 学 习 就 是 让 机 器 能 像 人 一 样 有 学 习 、 理 解 . 认 识 的 能 力 
2. 下 列 选项 中 , 哪 一 项 是 不 属于 监督 学 习 的 方法 ? 〈 ) 
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A. KMeans B. 线性 回归 C. SVM D. 朴素 贝 叶 斯 
3. 下 列 选项 中 , 哪 一 项 是 最 常见 的 评价 分 类 器 好 坏 的 指标 。( ) 

A. 准确 率 (auc) B. 精确 度 (precision) 

C. 召回 率 (recall) D. F 值 
四 、 简 答题 


1. 简 述 Spark MLlib 机 器 学 习 库 的 工作 流程 。 
2. 简 述 推荐 模型 的 分 类 。 


五 、 编 程 题 
通过 使 用 Spark MLlib 机 器 学 习 算 法 库 ,实现 基于 用 户 的 电影 推荐 功能 。 


第 9 章 
综合 案例 一 一 Spark 实 时 交易 数据 统计 


学 习 目 标 

。 熟悉 Spark 实时 计算 系统 架构 。 

。 掌握 看 板 平台 开发 业务 流程 。 

。 熟悉 系统 环境 搭建 步骤 。 

。 掌握 Redis 和 WebSocket 的 基本 使 用 方法 。 


本 章 通过 Spark Streaming 技术 开发 商品 实时 交易 数据 统计 模块 ,该 系统 主要 功能 是 
在 前 端 页 面 以 动态 报表 展示 后 端 不 断 增长 的 数据 ,这 也 是 所 谓 的 看 板 平台 。 通 过 学 习 并 开 
发 看 板 平台 ,从 而 帮助 读者 理解 大 数据 实时 计算 架构 的 开发 流程 ,并 能 够 掌握 Spark 实时 计 
算 框架 Spark Streaming 在 实际 应 用 中 的 使 用 方法 。 本 章 的 核心 是 在 掌握 实时 计算 系统 架 
构 的 前 提 下 ,具备 独立 使 用 Spark Streaming 分 析 转 换 数据 的 能 力 , 并 利用 Redis 数据 库 和 
WebSocket 技术 实现 数据 展示 功能 。 


9.1 系统 概述 


9.1.1 系统 背景 介绍 


“ 双 十 一 ”是 每 年 11 月 11 日 的 电 商 促销 活动 ,在 2018 年 的 这 次 购物 狂欢 中 ,天 猫 开 场 
仅 2 分 5 秒 ,总 交易 额 就 突破 100 亿 元 ,最 终 24 小 时 总 成 交 额 为 2 135 亿 元 。 在 现场 庆典 
中 ,成 交 额 数据 在 大 屏幕 中 实时 刷新 展示 ,这 就 用 到 了 数据 可 视 化 技术 ,数据 可 视 化 是 借助 
于 图 形 化 手段 ,将 数据 库 中 的 每 一 条 数据 以 图 像 的 形式 展示 在 前 端 页 面 中 的 技术 ,可 以 清晰 
有 效 地 传达 沟通 信息 。 利 用 实时 数据 构建 动态 看 板 平台 ,可 以 使 决策 人 员 快 速 理解 并 处 理 
相应 的 信息 数据 ,还 能 够 通过 观察 看 板 平台 展示 的 动态 数据 ,发 现 大 数据 集 的 市 场 变化 和 趋 
势 动向 。 

在 看 板 平台 系统 中 ,动态 数据 的 展示 就 需要 流 式 计算 系统 每 时 每 刻 接收 数据 、 分 析 数 据 
以 及 转发 数据 ,通过 本 书 学 习 的 Spark 实时 计算 框架 Spark Streaming 和 Kafka 就 可 以 完成 
这 一 技术 需求 。 


9.1.2 系统 架构 设计 


下 面 通过 图 9-1 来 描述 本 章 实时 统计 成 交 额 计算 系统 的 基础 架构 图 。 
从 图 9-1 可 以 看 出 ,本 系统 所 需 的 数据 是 来 源 于 用 户 访问 订单 页 面 , 在 商品 成 交 后 , 数 
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订单 系统 四 Kafka —~— Spark Streaming 


数据 展示 | 一 一 一 一 一 一 一 一 | Redis 
图 9-1 实时 统计 成 交 额 计算 系统 基础 架构 


据 会 转发 到 订单 系统 中 (根据 不 同 的 业务 需求 ,数据 来 源 于 不 同 的 模块 ) ,在 本 案例 中 ,模仿 
一 个 订单 系统 ,每 时 每 刻 都 产生 一 条 订单 ,并 将 这 条 订单 数据 发 送 至 Kafka 中 。 然 而 ,在 实 
际 工作 应 用 开发 中 ,为 了 系统 各 个 模块 的 稳定 以 及 各 部 门 之 间 的 协调 管理 ,订单 系统 的 开发 
人 员 所 管理 的 MySQL 数据 库 是 不 允许 数据 部 门 直接 访问 数据 源 的 ,这 时 就 可 以 利用 消息 
中 间 件 ActiveMQ 协调 传输 数据 。 当 数据 发 送 至 Kafka 中 ,就 可 以 通过 Spark Streaming 定 
时 从 Kafka 中 读 取 一 次 数据 ,并 计算 设置 定时 时 间 间 隔 内 每 个 订单 的 数据 信息 ,将 计算 结果 
保存 至 数据 库 中 ,为 了 方便 在 数据 库 中 进行 累加 操作 ,本 案例 将 采用 Redis 数据 库 , 后 续 将 
会 进行 详细 讲解 。 


9.1.3 系统 预览 


本 案例 实时 交易 数据 统计 是 分 析 订 单 中 的 商品 ,把 每 件 商品 的 销售 额 进行 汇总 ,最 终 以 
图 表 的 形式 动态 展示 在 前 端 页 面 中 ,实际 效果 如 图 9-2 所 示 。 


商品 销售 额 汇总 OB 2018 年 11 月 11 日 
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图 9-2 商品 销售 额 汇 总 


在 图 9-2 中 , 纵 轴 0 一 9 表示 商品 编号 , 横 轴 表示 该 商品 成 交 额 总 和 。 
在 看 板 平台 中 ,可 以 将 各 种 业务 数据 展示 在 页 面 中 ,读者 可 自行 添加 需求 ,在 页 面 中 展 
示 其 运行 效果 即 可 。 


9.2 Redis 数据 库 


源源 不 断 的 数据 经 过 Spark Streaming 程序 处 理 完 成 后 ,需要 将 计算 结果 保存 到 文件 
系统 或 者 数据 库 中 ,同时 保存 的 数据 也 在 不 断 地 更 新 ,Redis 是 一 款 高 性 能 键 值 对 数据 库 ， 
与 传统 数据 库 不 同 的 是 ,Redis 的 数据 是 存在 内 存 中 的 ,因此 读 写 数据 速度 非常 快 ,本 项 目 
将 使 用 Redis 数据 库存 储 计 算 结果 。 
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9.2.1 Redis 介绍 


Redis 是 使 用 C 语言 开发 的 一 个 开源 的 高 性 能 键 值 对 数据 库 , 它 通过 提供 多 种 键 值 对 
数据 类 型 适应 不 同 场景 下 的 存储 需求 ,到 目前 为 止 ,Redis 支持 的 键 值 对 数据 类 型 ,分别 是 
字符 串 数据 类 型 (String) 、 哈 希 (Hash) 、 列 表 (List) 、 集 合 (Set) 以 及 有 序 集合 (Zset)5 种 。 

Redis 性 能 非常 出 色 ,整个 数据 库 的 数据 都 被 加 载 到 内 存 中 进行 操作 ,Redis 会 定期 通 
过 异步 操作 把 数据 写 人 磁盘 中 进行 保存 ,从 而 保证 了 数据 库 的 容错 性 ,避免 在 计算 机 断 电 
时 ,存储 在 内 存 中 的 数据 丢失 ,官方 数据 显示 ,Redis 每 秒 可 处 理 超 过 十 万 次 读 写 操作 ,因此 
Redis 可 被 应 用 于 商品 秒杀 缓存 页 面 数据 .应 用 排行 榜 等 大 量 数据 高 并 发 的 场景 。 


9.2.2 Redis 部 署 与 启动 


通过 Redis 官方 网 站 https://download. redis. io/releases/ 下 载 Redis 安装 包 , 本 书 选 
用 redis-3. 2. 8. tar. gz 版 本 ,下 载 完成 后 ,将 安装 包 上 传 至 hadoop01 节点 下 的 /export/ 
software 目录 下 ,将 其 解压 至 /export/servers 目录 下 ,命令 如 下 。 


Star -zxvf redis-3.2.8.tar.gz -C /export/servers/ 


由 于 Redis 是 由 C 语言 开发 ,因此 安装 Redis 需要 将 源码 进行 编译 ,编译 依赖 于 gcc 环 
境 , 所 以 要 安装 gcc, 安 装 命令 如 下 。 


$yum install gcc 
进入 redis-3. 2. 8 解压 目录 ,编译 redis 源码 ,命令 如 下 。 
$cd /export/servers/redis-3.2.8/ 


Smake 
Smake PREFIX= /export/servers/redis install 


执行 上 述 命 令 后 ,会 在 /export/servers/ 目 录 下 创建 一 个 新 的 Redis 文件 夹 , 里 面 存放 
了 执行 Redis 服务 的 相关 程序 ,启动 Redis 服务 需要 redis. conf 配置 文件 , 它 是 用 来 设置 
Redis 服务 端 启动 时 ,所 加 载 的 配置 参数 。 将 源码 包 中 附带 的 配置 文件 复制 到 redis/bin 目 
录 中 ,命令 如 下 。 


$cp redis.conf /export/servers/redis/bin/ 


复制 完成 后 ,进入 /export/servers/redis/bin/ 目 录 , 使 用 vi 命令 打开 redis. conf 配置 文 
件 , 修 改 Redis 服务 端 IP 地 址 ,具体 参数 如 下 。 


bind 192.168.121.134 


至 此 Redis 配置 完成 ,下 面 启动 Redis 服务 端 .命令 如 下 。 


$./redis-server ./redis.conf 


第 9 章 ”综合 案例 一 一 Spark 实时 交易 数据 统计 


启动 Redis 服务 后 ,执行 效果 如 图 9-3 所 示 。 


Redis 3.2.8 (00000000/0) 64 bit 


Running in standalone mode 
Port: 6379 
PID: 5262 


http://redis. io 


5262:M 21 Dec 2: 42.044 # WARNING: The TCP backlog setting of 511 cannot be enforced because /p 
BA/ nn is set to the lower value of 128. 

526: C 2 42.044 # Server started，Redis version 3.2.8 

42.045 # MARNING overcommit_memory js 用 to 9 Background save may fail under 

¥ Condition. To fix this jssue add “vn: over CommiT EE src 和 ee .conf and th 

t_memory=1" or" ¥his to take effect 

262 M21 Dec 23:.343450043 9 Ee have Transparent Huge Pages Cn} suppor t enabled in your 

kernel. This will create 1at memory usage issues with Redis. To ae run the co 

nd "acho never > /SyS/icarned un/ Crancpar tnt Porepaoe/ anabled' as’ Foot, it to your /etc 

由 ‘ocal in order to retain 和 Setting Ser a reboot. Redis must be Fe after THP is disal 


3.045 * op loaded from disk: 9.000 seconds 
;045 * The server is now ready to accept connections on port 6379 


ssh2: AES-256-CTR 33, 1 33Rows,98 Cols 


图 9-3 启动 Redis 服务 


Redis 服务 会 占用 会 话 窗口 ,如果 想 在 后 台 启 动 Redis 服务 ,只 需要 在 redis. conf 配置 
文件 中 修改 daemonize yes 参数 即 可 。 


9.2.3 ”Redis 操作 及 命令 


启动 Redis 服务 后 ,克隆 hadoop01 的 会 话 终端 ,并 在 redis/bin 目录 下 启动 Redis 客户 
端 ,命令 如 下 。 


$./redis-cli -h 192.168.121.134 


Redis 客户 端 启动 成 功 后 的 界面 效果 如 图 9-4 所 示 。 


图 9-4 启动 Redis 客户 端 
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Redis 包含 5 种 数据 类 型 ,操作 方式 大 致 相同 , 哈 希 数据 类 型 是 Redis 常用 的 数据 类 型 ， 


命令 名 称 


数据 结构 为 Map 一 String,Map 一 String,String 二 二 ,常用 操作 命令 如 表 9-1 所 示 。 
表 9-1 


针对 Hash 操作 命令 
相关 说 明 


hset(key ,field, value) 


向 名 称 为 key 的 hash 中 添加 元 素 field 


hget(key, field) 


返回 名 称 为 key 的 hash 中 field 对 应 的 value 


hincrby(key ,field,integer) 


将 名 称 为 key 的 hash 中 field 的 value 增加 integer 


hexists(key ,field) 


名 称 为 key 的 hash 中 是 否 存在 键 为 field 的 域 


hdel(key, field) 


删除 名 称 为 key 的 hash 中 键 为 field 的 域 


hlen(key) 返回 名 称 为 key 的 hash 中 元 素 个 数 
hkeys(key) 返回 名 称 为 key 的 hash 中 所 有 键 
hvals(key) 返回 名 称 为 key 的 hash 中 所 有 键 对 应 的 value 


9.3 ”模块 开发 一 一 构建 工程 结构 


接 下 来 ,分 步骤 讲解 构建 工程 结构 。 


1. 创建 工程 


首先 打开 IDEA 开发 工具 ,创建 Maven 工程 ,不 选择 任何 模板 ,具体 如 图 9-5 所 示 。 


(E Inteli Platform Plugin 


网 Spring Initializr 


© Gradle 


@ Groow 

加 Griffon 

© Grails 

© Application Forge 
村 Scala 

区 Kotin 


static Web 


Project SDK: 


口 Create from archetype 


We 1.8 (ava version "180 144") ~ 


Add Archetype-~. 


> com.atlassian.maven.archetypes:bamboo-plugin-archetype 
com.atlassian.maven.archetypes:confluence-plugin-archetype 
com.atlassian.maven.archetypesjira-plugin-archetype 
com.rfc.maven.archetypesjpa-maven-archetype 
deakquinetjbossccjbosscc-seam-archetype 
netdatabinderdata-app 
net.liftweb:lift-archetype-basic 
net.liftweb:lift-archetype-blank 
netsf maven-harmaven-archetype-har 
netsf mayen-sarmaven-archetype-sar 
org.apache.camel.archetypes:camel-archetype-activemq 
org.apache.camel.archetypes:camel-archetype-component 
org.apache.camel.archetypes:camel-archetype-java 
org.apache.camel.archetypes:camel-archetype-scala 
org.apache.camel.archetypes:camel-archetype-spring 
org.apache.camel.archetypes:camel-archetype-war 


图 9-5 选择 Maven 模板 
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在 图 9-5 中 单 击 【[Next] 按 钮 ,输入 GroupId 和 ArtifactId, 作 为 组 织 名 和 项 目 工程 名 , 具 
体 如 图 9-6 所 示 。 


图 9-6 设置 组 织 .工程 名 称 


在 图 9-6 中 单 击 [Next] 按 钮 直到 出 现 [Finish】 按 钮 完成 工程 创建 。 
2. 项 目 资源 结构 
本 项 目 中 所 涉及 的 包 文件 、 配 置 文 件 以 及 页 面 文 件 等 是 项 目 中 的 组 织 结构 ,如 图 9-7 所 示 。 


> eUi Di a\ ed Ee | 


M pomaml 
而 Reakimeuiiml 
> ll Edternal Ubraries 


9-7 工程 资源 结构 


8 
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将 Spark 工程 和 JavaWeb 工程 整合 在 一 个 Maven 工程 下 ,因此 还 需要 向 项 目 中 添加 
JavaWeb 工程 必 备 的 web. xml 文件 。 在 IDEA 开发 工具 中 , 右 击 工程 名 ,选择 Open 
Module Settings 选项 ,设置 步骤 如 图 9-8 所 示 。 


Pe 
4 中 RE 
~ Be RealimeUi ee 
Project settings ls 
Project Deployment Descriptors 
Modules 
Ubraries 
hoa) Descr 
Artifacts 
Platform Settinge ‘Web Module Deployment Descriptor (webxm)): 2. 点 击 修改 跨 径 和 版 本 | 
SDKs rspace\RealtimeUilErcwebapPpIWEB-INA ~ | | 
Global Libraries | Deployment desciiptor wersion [5 可 
Problems 
DiVdeaworkspace\RealtimeUi\sre\webapp| 
Belative pathin deployment directorr |/ 
Source Root 一 
回 pwdeeworispece\Realtimeuisrcwnainyiave 
回 bwdeaworlspaceiReakimeUisrcmainwesources 
企 Web Facet resources ere not included inan artifact Creste Arifact 
© El) el 


图 9-8 添加 web. xml 文件 


在 图 9-8 中 ,首先 选择 “十 ”号 添加 Web 模板 ,然后 依次 修改 路 径 和 版 本 号 ,并 标记 
webapp 路 径 , 最 后 单 击 [OK】 按 钮 完成 配置 。 


3. 添加 依赖 
按照 图 9-7 创建 工程 资源 结构 目录 后 ,在 pom. xml 配置 文件 中 添加 工程 所 需 依赖 , 具 
体 代码 如 下 所 示 。 


<!--spark--> 

<dependency> 
<groupId>org.apache.spark< /groupId> 
<artifactId>spark- core 2.11</artifactId> 
<version>2.3.2</version> 

</dependency> 

<dependency> 


Amnwnpr 
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上 述 代码 片段 是 项 目 所 需 的 Spark 依赖 ,包含 了 spark-core、scala、spark-streaming 和 
spark-streaming 与 Kafka 整合 所 需 的 Jar 文件 。 


上 述 代码 片段 是 项 目 所 需 的 Kafka、Jedis 依赖 ,其 中 Jedis 是 Java 版 本 的 Redis 客户 端 
实现 ,提供 了 数据 库 连 接 池 管理 ,通过 Jedis 的 Jar 文件 可 以 访问 Redis 数据 库 并 进行 相关 
的 操作 。 
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上 述 代码 片段 是 项 目 所 需 Spring 框架 所 需 的 Jar 文件 。 
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在 上 述 代 码 片 段 是 项 目 所 需 Jsp、Json 数据 转换 工具 、WebSocket 的 Jar 文件 。 若 读者 
仍 需 添加 其 他 依赖 库 , 可 通过 https://mvnrepository. com/ 网 站 进行 查找 添加 。 


9.4 模块 开发 一 一 构建 订单 系统 


在 本 项 目 中 ,利用 Java 编程 构建 订单 系统 ,在 模拟 订单 数据 时 ,可 以 采用 随机 生成 一 组 
Json 格式 的 字符 串 来 模拟 订单 数据 。 


9.4.1 模拟 订单 数据 


订单 数据 模型 通常 由 订单 编号 、 订 单 时 间 、 商 品 编号 、 商 品 价格 等 数 十 个 字段 组 成 ,模型 
中 的 指标 越 多 ,提供 给 分 析 人 员 可 分 析 的 维度 就 越 多 ,如 针对 平台 运 维 角度 统计 指标 可 以 计 
算 订单 数据 统计 平台 总 销售 额度 ,平台 今日 下 单 人 数 ;针对 商品 销售 角度 统计 指标 可 以 计算 
每 个 商品 的 总 销售 额 , 每 个 商品 的 销售 数量 。 在 本 项 目 模块 开发 中 ,需要 计算 每 个 商品 总 销 
售 额 ,相应 的 维度 数据 在 数据 库 中 可 以 表示 为 bussiness: : order: : total 字段 ,字段 的 名 称 
设计 可 根据 业务 需求 名 称 自 定义 设置 。 

首先 在 cn. itcast. createorder 包 下 创建 PaymentInfo. java 文件 ,用 于 定义 订单 字段 以 
及 生成 订单 数据 ,具体 代码 如 文件 9-1 所 示 。 

文件 9-1 PaymentInfo. java 
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模拟 订单 数据 模块 开发 中 ,第 6 一 8 行 代码 设置 了 3 个 字段 ,分 别 是 订单 编号 .商品 编 
号 .商品 价格 。 第 42 一 49 行 代码 是 模拟 订单 数据 的 核心 方法 ,采用 UUID 模拟 生成 订单 纺 
号 ,UUID 是 由 一 组 32 位 数 的 十 六 进 制 数字 随机 构成 的 字符 串 数 据 ,商品 编号 是 由 0 一 9 这 
10 个 数字 组 成 ,代表 特定 商品 。 在 数据 传输 过 程 中 ,需要 将 对 象 转换 成 Json 格式 的 字符 
串 ,这 里 采用 了 Fastjson 数据 转换 工具 ,调用 JSONObiect 类 的 toJSONString() 方 法 将 
PaymentInfo 订单 对 象 转换 为 Json 格式 的 字符 串 , 编 写成 功 后 ,就 可 以 在 test 目录 中 创建 
测试 用 例 ,最 终 随 机 生成 的 订单 数据 格式 如 下 。 


9.4.2 向 Kafka 集群 发 送 订 单数 据 


模拟 订单 数据 模块 开发 完成 后 , 接 下 来 ,创建 Kafka 生产 者 对 象 ,将 订单 数据 发 送 至 
Kafka 集群 中 ,下 面 分 步骤 进行 讲解 。 


第 9 章 综合 案例 一 一 Spark 实时 交易 数据 统计 B2139 


1. 创建 Kafka 生产 者 对 象 


在 cn. itcast. createorder 包 下 创建 PaymentInfoProducer. java 文件 ,具体 代码 如 文件 9-2 
所 示 


文件 9-2 PaymentInfoProducer. java 


上 述 代码 是 利用 Kafka API 创建 生产 者 对 象 ,设置 Kafka 集群 配置 参数 并 调用 send() 
方法 ,不 断 向 指定 Kafka 集群 中 发 送 订单 数据 。 
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2. 启动 Kafka 程序 


下 面 依次 启动 主机 名 为 hadoop01、hadoop02、hadoop03 这 3 台 集 群 中 的 Kafka 服务 ， 
行 命令 如 下 所 示 。 


Sbin/kafka- server- start.sh config/server.properties 


启动 Kafka 服务 端 进程 后 ,通过 克隆 hadoop01 的 会 话 窗口 来 创建 名 为 itcast_order 的 
Topic, 执 行 命令 如 下 所 示 。 


$kafka-topics.sh --create \ 

--topic itcast order \ 

--partitions 3 \ 

--replication- factor 2 \ 

--zookeeper hadoop01:2181, hadoop02:2181,hadoop03:2181 


Topic 创建 成 功 后 ,就 可 以 监听 数据 了 ,执行 命令 如 下 所 示 


Skafka- console- consumer .sh \ 
--from-beginning --topic itcast_order \ 
--bootstrap- server hadoop01:9092,hadoop02:9092,hadoop03:9092 


命令 执行 完成 后 ,返回 IDEA 工具 ,运行 PaymentInfoProducer 类 生产 数据 ,随后 观察 
Kafka 消费 数据 的 会 话 窗口 和 IDEA 工具 的 控制 台 输出 ,效果 如 图 9-9 所 示 。 


eT C90577C 
9da4814eaf1048fc95c3cI04cof 35155" 
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903e37Cafcf5421d9c42eb5ab454790C: 
72beeb9b40e5401ebaa76d5e33107124 
C26bc894c8be47cOaS1f856719f3alll 
15b89b866d6e45b082ce5cb26fd4d5ee7: 
3d6a86dd0fa542288e05ccc2674828ef 
adce579f ac34460fa90aee3e3c2bfbdo’ 
9225a7d971e34d4as3aa44b1d2c96415; 
dfd4a48640b0442c875cObd1ba018f97 
Dd7 5bs9ace0249f5886c819cbof e0687 
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productpr Ce” 
oductpr ic 
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productPrice' 
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图 9-9 Kafka 生产 与 消费 数据 
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从 图 9-9 中 可 以 看 出 ,通过 Kafka API 方式 实现 生产 者 模拟 源源 不 断 的 订单 数据 ,在 
CRT 会 话 窗口 中 通过 Kafka 消费 者 客户 端 监 听 并 消费 数据 。 至 此 ,模拟 订单 系统 开发 
完成 。 


9.5 模块 开发 一 一 分 析 订 单数 据 


针对 Kafka 中 的 实时 订单 数据 ,本 节 采 用 Spark Streaming 实时 计算 框架 对 订单 中 不 
同 商品 的 成 交 额 进行 统计 分 析 , 然 后 将 分 析出 的 数据 按照 业务 需求 存 人 Redis 数据 库 。 


1. 配置 Jedis 操作 Redis 数据 库 


数据 写 人 到 Redis, 可 以 使 用 Jedis 工具 ,Jedis 是 Redis 官方 推荐 的 Java 连接 开发 工具 ， 

其 中 集成 了 Redis 操作 命令 、 提 供 数据 库 的 连接 池 管 理 以 及 使 用 简单 等 优点 
在 项 目的 资源 目录 创建 redis. properties 配置 文件 ,配置 参数 如 文件 9-3 所 示 。 
文件 9-3 redis. properties 


1 + 表示 jedis 的 服务 器 主机 名 

2 ， jedis.host=hadoop01 

3 “+ 表示 jedis 的 服务 的 端口 

4 jedis.port=6379 

5 +#jedis 连接 池 中 最 大 的 连接 个 数 

6 jedis.max.total=60 

7 +#jedis 连接 池 中 最 大 的 空闲 连接 个 数 
8 jedis.max.idle=30 

9 “+#jedis 连接 池 中 最 小 的 空闲 连接 个 数 
10 jedis.min.idle=5 

11 #jedis 连接 池 最 大 的 等 待 连接 时 间 ms 值 


12 jedis .max.wait.millis=30000 


在 scala 目录 的 cn. itcast. processdata 包 下 创建 RedisClient. scala 文件 ,用 于 读 取 配置 
文件 中 Redis 参数 ,代码 如 文件 9-4 所 示 。 
文件 9-4 RedisClient. scala 


1 import java.util.Properties 

2 import org.apache.commons.pool2.impl.GenericobjectPoolConfig 

3 import redis.clients.jedis.JedisPool 

4 Object Redisclient { 

加 Val prop =new Properties () 

6 // 加 载 配置 文件 

地 prop.load( 

8 this.getclass.getclassLoader.getResourceAsstream ("redis.properties")) 
9 Val redisHost: String =prop.getProperty ("jedis.host") 

10 val redisport: String =prop.getProperty ("jedis.port") 

hl Val redisTimeout: String =prop.getProperty ("jedis.max.wait .millis") 
也 lazy val pool =new Jedispool (new GenericobjectPoolConfig()， 

1 人 3 redisHost, redisport .toInt, redisTimeout .toInt) 
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文件 9-4 是 Scala 版 本 的 Jedis 工具 类 ,为 了 让 读者 掌握 更 多 编程 技巧 ,同时 提供 了 Java 
版 本 的 Jedis 工具 类 ,在 cn. itcast. util 包 中 ,创建 JedisUtil. java 文件 ,用 来 操作 Redis 数据 
库 , 具 体 代码 如 文件 9-5 所 示 。 

文件 9-5 JedisUtil. java 
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2. Spark Streaming 处 理 数据 


接 下 来 利用 所 学 知识 Spark Streaming 处 理 Kafka 集群 中 的 数据 ,在 cn. itcast. 
processdata 包 下 创建 StreamingProcessdata. scala 文件 ,具体 代码 如 文件 9-6 所 示 。 
文件 9-6 StreamingProcessdata. scala 
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上 述 代码 中 ,第 16 一 26 行 代码 用 于 构建 StreamingContext 对 象 ,并 设置 批 处 理 时 间 间 
隔 为 3s; 第 27 一 36 行 代码 ,设置 Kafka 连接 参数 ,并 构建 KafkaDstream 对 象 ,通过 
KafkaUtils. createDirectStream ( ) 方 法 读 取 Kafka 数据 流 ;第 37 一 61 行 代 码 , 当 接 收 到 
Kafka 中 每 一 条 数据 时 ,通过 JSON. parseObject() 方 法 ,将 Json 字符 串 转换 为 JSONObject 
对 象 ,接着 按照 productID 进行 分 组 统计 个 数 和 价格 ,将 orders 对 象 中 的 productId 和 
productPrice 字段 以 Hash 数据 类 型 的 结构 保存 在 Redis 数据 库 中 ,在 Redis 中 表现 为 Map 
二 orderTotalKey .Map 一 productId,productPrice 二 二 的 数据 格式 。 

为 了 测试 目前 系统 是 否 能 够 正常 工作 ,执行 数据 分 析 类 (StreamingProcessdata. scala) 、 数 
据 生 产 类 (PaymentInfoProducer) ,然后 在 Redis 客户 端 中 查看 数据 ,具体 效果 如 图 9-10 所 示 。 
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21.134:6379> hvals bussiness::order::total 


吕 已 吕 
Boo、vowewupbeoo、owewNb 


图 9-10 查看 Redis 数据 


从 图 9-10 中 可 以 看 出 ,数据 成 功 保存 在 Redis 数据 库 中 。 


9.6 ”模块 开发 一 一 数据 展示 


数据 分 析 结束 后 ,就 可 以 将 Redis 数据 库 中 的 数据 显示 在 看 板 系统 中 ,将 抽象 的 数据 图 
形 化 ,便于 非 技术 人 员 进 行 决策 与 分 析 , 本 系统 采用 ECharts 来 辅助 实现 。 


9.6.1 搭建 Web 开发 环境 


在 搭建 系统 环境 之 前 ,已 经 向 pom. xml 文件 中 添加 了 开发 Java Web 工程 所 需 的 
Spring 框架 相关 的 依赖 ,因此 可 以 直接 编写 项 目 所 需 配 置 文件 web. xml 和 springmvc. 
xml, 代 码 如 文件 9-7 和 文件 9-8 所 示 。 

文件 9-7 web. xml 
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文件 9-7 中 ,web. xml 文件 配置 Spring 监听 器 、 编 码 过 滤器 和 SpringMVC 的 前 端 控制 
器 等 信息 。SpringMVC 是 一 个 基于 DispatcherServlet 的 MVC 框架 ,每 一 个 请 求 最 先 访问 
的 是 DispatcherServlet，DispatcherServlet 负责 转发 每 一 个 Request 请 求 给 相应 的 
Handler,Handler 处 理 后 再 返回 给 相应 的 视图 和 模型 ,在 web. xml 配置 文件 中 指定 
springmvc. xml 文件 路 径 。 

文件 9-8 springmvc. xml 
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文件 9-8 中 ,springmvc. xml 文件 配置 了 Controller 层 .Service 层 的 包 扫 描 注解 驱动 、 
视图 解析 器 以 及 资源 映射 。 


9.6.2 实现 数据 展示 功能 


配置 文件 添加 成 功 后 ,在 cn. itcast. service 包 下 创建 GetDataService. java 文件 ,实现 读 
取 Redis 数据 功能 .代码 如 文件 9-9 所 示 。 
文件 9-9 GetDataService. java 
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在 数据 分 析 过 程 中 ,将 数据 以 Hash 数据 类 型 保存 在 Redis 数据 库 中 ,因此 读 取 Redis 
数据 库 时 ,需要 使 用 Map 数据 类 型 进行 封装 处 理 , 将 其 封装 为 UiBean 对 象 , 即 展示 页 面 时 
所 需 的 数据 字段 ,UiBean 代码 如 文件 9-10 所 示 。 

文件 9-10 UiBean. java 
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需要 说 明 的 是 .在 模拟 订单 时 ,随机 生成 10 个 productId。 在 定义 UiBean 中 的 字段 
produceId producetSumPrice 使 用 了 数组 格式 。 

当 读 取 到 Redis 数据 库 中 的 订单 数据 后 ,通过 Controller 层 调用 Service 层 中 的 方法 ， 
在 实际 工作 应 用 中 ,三 层 架 构 通常 是 以 接口 的 形式 互相 调用 ,读者 后 续 增 加 功能 模块 时 ,可 
自行 将 代码 重 构 。 接 下 来 编写 Controller 层 代码 ,Controller 层 代码 如 文件 9-11 所 示 。 

文件 9-11 IndexController. java 


import cn.itcast.service.GetDataservice; 
import org.springframework.beans.factory.annotation.Autowired; 
import org.springframework.stereotype.Controller; 
import org.springframework.web.bind.annotation.RequestMapping; 
import org.springframework.web.bind.annotation.ResponseBody; 
@controller 
public class IndexController { 
@Autowired 
private GetDataService getDataservice; 
@RequestMapping ("/index") 
public string showIndex() { 
return "index"; 
} 
@RequestMapping (value ="/getData", 
Produces ="application/json;charset=UTF- 8") 
@ResponseBody 
public string getData() { 
String data =getDataservice.getData(); 
return data; 


} 


编写 前 端 页 面 代 码 之 前 ,首先 要 考虑 一 个 问题 ,前 端 页 面 中 如 何 动态 显示 图 表 ? 解决 方 
案 有 许多 种 ,如 通过 JS 代码 编写 定时 器 ,每 隔 1s 刷新 一 次 页 面 访问 后 端 数据 接口 ,这 种 频 
繁 向 服务 器 发 送 请 求 ,检查 是 否 有 新 的 数据 改动 ,会 形成 轮 询 ,导致 效率 低 以 及 流量 和 服务 
器 资源 的 浪费 ,因此 采用 WebSocket 网 络 通信 协议 。 

WebSocket 是 从 HTML5 开始 提供 的 一 种 在 单个 TCP 连接 上 进行 全 双 工 通信 的 协 
议 , 以 便 通 信 的 任何 一 端 都 可 以 通过 建立 的 连接 将 数据 推送 到 另 一 端 。WebSocket 只 需要 
建立 一 次 连接 ,就 可 以 一 直 保持 连接 状态 ,这 相 比 于 轮 询 方式 的 不 停 建立 连接 显然 效率 要 大 
大 地 提高 。 当 获取 WebSocket 连接 后 ,可 以 通过 send() 方 法 来 向 服务 器 发 送 数 据 , 并 通过 
onmessage 事件 来 接收 服务 器 返回 的 数据 。WebSocket 技术 并 非 本 书 重点 内 容 , 读 者 可 以 
查阅 相关 资料 深入 学 习 。 

因此 在 cn. itcast. websocket 包 下 创建 UiWebSocket. java 文件 ,代码 如 文件 9-12 所 示 。 

文件 9-12 UiWebSocket. java 
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import cn.itcast.service.GetDataservice; 

import javax.websocket .*; 

import javax.websocket .server.ServerEndpoint; 
import java.io.IOException; 

import java.util.concurrent .CopyOonWriteArraySet; 
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在 上 述 代码 中 ,@ServerEndpoint 注解 是 一 个 类 层次 的 注解 , 它 的 功能 主要 是 将 目前 的 
类 定义 成 一 个 WebSocket 服务 器 端 ,注解 的 值 将 被 用 于 监听 用 户 连接 的 终端 访问 URL 地 
址 ,客户 端 可 以 通过 这 个 URL 来 连接 到 WebSocket 服务 器 端 ,在 核心 代码 第 37 一 54 行 , 调 
用 getDataService. getData() 获 取 数 据 , 并 不 断 将 数据 推送 到 message 中 。 

在 index.jsp 页 面 编写 JS 代码 ,编写 回调 方法 接收 后 台数 据 , 再 利用 ECharts 工具 , 生 
成 ECharts 图 例 ,代码 如 文件 9-13 所 示 。 

文件 9-13 index. jsp 


可 269 Spark 大 数据 分 析 与 实战 


在 上 述 index. jsp 代码 中 ,在 id 为 container 的 div 标签 中 添加 固定 格式 的 ECharts 模板 图 
表 代码 ,不同 的 图 表 可 以 在 ECharts 官网 复制 模板 代码 直接 使 用 。 下 面 继 续 在 二 script 二 标签 
中 编写 js 代码 ,实现 WebSocket 动态 加 载 并 填充 图 表 数 据 。 
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至 此 ,就 完成 了 看 板 系统 的 前 端 开发 ,下 面 就 可 以 启动 所 有 模块 ,查看 运行 效果 。 
9.6.3 可 视 化 平台 展示 


接 下 来 依次 启动 模拟 订单 数据 模块 (PaymentInfoProducer. java)、 数 据 分 析 模 块 
(StreamingProcessdata. java) 以 及 Tomcat 服务 .通过 访问 http://localhost:8080/index 浏 
览 看 板 页 面 ,如 图 9-11 所 示 。 
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图 9-11 看 板 页 面 


9.7 本 章 小 结 


本 章 主要 介绍 了 利用 Spark Streaming、Kafka 以 及 Redis 等 技术 开发 实时 交易 数据 统 
计 系 统 ,通过 本 章 的 学 习 , 读 者 能 够 了 解 大 数据 实时 计算 架构 的 开发 流程 ,并 巩固 Spark 
Streaming 与 Kafka 整合 在 实际 开发 中 的 使 用 方式 。 本 章 的 重点 是 在 掌握 系统 架构 和 业务 


流程 的 前 提 下 ,读者 自己 动手 开发 系统 , 当 遇 到 问题 时 ,可 以 独立 解决 问题 。 


